Machine Learning

Das Gegenmittel zum OpenAI-Textmodell GPT-2 und das Ende von Non-Profit

Kann dieses Einhorn echt sein? KI-Tool GLTR erkennt maschinell erstellte Texte
Keine Kommentare

Im letzten Monat hat OpenAI sein autonomes Texterstellungsmodell GPT-2 vorgestellt. Als Gegenbewegung hat nun ein kleines Forschungsteam ein Tool zur Erkennung künstlicher Texte entwickelt. Das Wettrüsten der Maschinen hat begonnen.

Modelle zur autonomen Texterstellung werden immer versierter, und die Ergebnisse sind inzwischen nicht mehr zweifelsfrei von menschengeschriebenen Texten zu unterscheiden. Ein Beispiel ist GPT-2, ein neues Modell zur autonomen Texterstellung der Organisation OpenAI, das aus Angst vor Missbrauch nicht komplett Open Source gestellt wurde (wir berichteten).

Nun hat ein amerikanisches Forschungsteam das Tool GLTR als Gegenmaßnahme entwickelt. Es soll Indikatoren dafür anzeigen, ob ein Text künstlich generiert wurde. Und auch OpenAI verkündet eine Neuigkeit: Eine grundlegende Änderung der Organisationsstruktur wurde bekannt gegeben.

Das Language Model von OpenAI: GPT-2

Die Organisation OpenAI stellte im letzten Monat das Large-Scale Unsupervised Language Model (LM) GPT-2 vor. Auf Basis eines wenige Sätze langen menschlichen Inputs erstellt das Modell weitergehende Texte, die nicht ohne Weiteres als künstlich entlarvt werden können.

Aufgrund dieser täuschend echten Ergebnisse wurde GPT-2 nur als kleineres Modell GPT-2 117M veröffentlicht, das fehlerhaftere Texte ausgibt. Wortwiederholungen, plötzliche Sprünge zu anderen Themen und sonstige Auffälligkeiten kennzeichnen die Texte auf den ersten oder zweiten Blick als künstlich. Das zeigte Arstechnica anschaulich anhand einiger Beispiele.

OpenAI begründete seine Entscheidung damit, Fake-News, gefälschte Online-Rezensionen, Identitätsklau, Manipulieren sozialer Medien, Spam, Phishing und sonstigen Missbrauch der umfangreichen Fähigkeiten von GPT-2 verhindern zu wollen.

Damit machte sich die Organisation in der Open-Source-Community jedoch recht unbeliebt und sah sich mit den Vorwürfen konfrontiert, gegen die eigenen Prinzipien zu verstoßen. „Release The Full Model!“, titelte der User superjayman in einem GitHub-Kommentar zu GPT-2 117M, denn nur dann könnten die Fähigkeiten und potenziellen Probleme von GPT-2 offengelegt werden. Er erntete damit viel Zuspruch in Form von 157 Likes im Vergleich zu 8 Dislikes.

ML Conference 2019

Workshop: Machine Learning 101++ using Python

mit Dr. Pieter Buteneers (Chatlayer.ai)

Honey Bee Conservation using Deep Learning

mit Thiago da Silva Alves, Jean Metz (JArchitects)

Python Summit 2019

Daten analysieren und transformieren mit Python

mit Doniyor Jurabayev (Freelancer)

Advanced Flow Control

mit Oz Tiram (noris network AG)

Gegenmaßnahme zu GPT-2: Giant Language model Test Room (GLTR)

Bei der Zurückhaltung des kompletten Modells GPT-2 berief sich OpenAI auf Sicherheitsbedenken, da nicht festgestellt werden könne, ob Text durch GPT-2 oder durch einen Menschen geschrieben wurde. Ein kleines Forschungsteam hat sich zur Aufgabe gemacht, diese Herausforderung anzunehmen und künstlichen Text erkennbar zu machen.

Das Tool, das von Forschern des MIT-IBM Watson AI Lab und Harvard NLP entwickelt wurde, läuft unter dem Namen Giant Language model Test Room (GLTR). Ziel des Projekts ist die Prüfung und visuelle Darstellung, ob ein Text durch einen Menschen oder ein Language Model erstellt wurde. Dazu wurde es mit Daten von GPT-2 117M, dem kleinen Bruder von OpenAIs GPT-2, gefüttert.

Wie funktioniert GLTR?

Bei der Vorgehensweise haben sich die Forscher der Grundlage von Sprachmodellen bedient, dass ein Wort basierend auf dem vorhergehenden Wort generiert wird. GLTR analysiert die Wahrscheinlichkeit eines nachfolgenden Wortes und stellt das Ergebnis farblich dar. Das Tool verwendet dazu die gleichen Modelle wie die Language Models zur Texterstellung, unter anderem GPT-2 117M.

Die Annahme lautet, dass von Sprachmodellen eine höhere Anzahl wahrscheinlicher Wörter verwendet wird. Befindet sich das Wort in den Top 10 der wahrscheinlichsten Wörter, wird es grün eingefärbt. In den Top 100 wird es gelb, in den Top 1000 rot und darüber hinaus violett angezeigt.

Am inzwischen berühmten Einhorn-Text, der von GPT-2 erstellt wurde, wird die visuelle Darstellung demonstriert. Die ersten beiden Sätze zeigen den menschlich erstellten Input, während der übrige Text aus der Feder von GPT-2 stammt. Im künstlichen Teil des Textes sind der Anteil der rotgefärbten Wörter gering und violettgefärbte Wörter nicht vorhanden. In Kombination mit den ebenfalls ausgegebenen Histogrammen zur weitergehenden Analyse deutet also alles auf einen künstlich erstellen Text hin.

GLTR-Anwendung auf GPT-2-Textbeispiel; Quelle: http://gltr.io/

Die Forscher selbst geben zu bedenken, dass GLTR nicht dazu in der Lage sei, große Mengen an Text zu analysieren. Jedoch könne daran weitere Forschung anknüpfen. Auch einen weiteren Punkt sprechen die Forscher an: Wenn bereits auf Basis des kleinen Modells GPT-2 117M demonstriert werden könne, dass der GPT-2-Text über Einhörner künstlich sei, könne dann nicht die Nutzung des kompletten GPT-2-Modells zu einer höheren Präzision von GLTR führen? Eine Reaktion von OpenAI auf GLTR steht bisher noch aus.

In der Live-Demo kann das Tool an eigenen Beispielen getestet werden. Detailliertere Informationen zur Funktionsweise von GLTR und den zusätzlichen Ausgabehistogrammen gibt es im offiziellen Projekt-Intro.

OpenAI gründet OpenAI LP: „Capped-Profit“

Nicht nur mit der Entscheidung, das komplette GPT-2-Modell nicht Open Source zu stellen, eckt OpenAI an. Bisher lief die Organisation, die 2015 unter anderem von Elon Musk und Sam Altman gegründet wurde und sich der Erstellung künstlicher Intelligenz zum Nutzen aller verschrieben hat, unter Non-Profit. Doch das hat sich inzwischen geändert.

OpenAI hat bekannt gegeben, das Unternehmen  OpenAI LP ins Leben gerufen zu haben – und aus Non-Profit wird damit „Capped-Profit“. Das soll eine Kombination aus Non-Profit und For-Profit sein, da die Gewinnauszahlungen an Investoren gedeckelt (capped) seien. Wenn in Zukunft von OpenAI die Rede ist, ist damit OpenAI LP gemeint, während die Non-Profit-Organisation unter OpenAI Nonprofit läuft. Die über die gedeckelte Grenze hinaus erzielten Gewinne gehen an OpenAI Nonprofit. OpenAI begründet seine Entscheidung damit, dass zur Erfüllung der OpenAI-Mission eine Erhöhung des Kapitals notwendig sei.

Zusätzlich zur Kritik an der Nicht-Veröffentlichung von GPT-2 muss sich OpenAI dadurch unter anderem auf Twitter erneut kritischen Meinungen stellen:

Unsere Redaktion empfiehlt:

Relevante Beiträge

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu:
X
- Gib Deinen Standort ein -
- or -