Vor zwei Jahren veröffentlicht, ist OpenAI bemerkenswert leistungsfähig, wenn fehlerhaft, GPT-3 war vielleicht der erste, der demonstrierte, dass KI überzeugend – wenn auch nicht perfekt – wie ein Mensch schreiben kann. Der Nachfolger von GPT-3, höchstwahrscheinlich GPT-4 genannt, wird voraussichtlich in naher Zukunft vorgestellt, vielleicht schon 2023. Aber in der Zwischenzeit hat OpenAI stillschweigend eine Reihe von KI-Modellen eingeführt, die auf „GPT- 3.5“, eine zuvor nicht angekündigte, verbesserte Version von GPT-3.
GPT-3.5 brach am Mittwoch mit ChatGPT aus der Deckung, einer fein abgestimmten Version von GPT-3.5, die im Wesentlichen ein Allzweck-Chatbot ist. Debütierte in einem öffentliche Vorführung Gestern Nachmittag kann sich ChatGPT mit einer Reihe von Themen befassen, darunter Programmierung, TV-Skripte und wissenschaftliche Konzepte.
Nach Für OpenAI wurde GPT-3.5 mit einer Mischung aus Text und Code trainiert, die vor dem 4. Quartal 2021 veröffentlicht wurde. Wie GPT-3 und andere texterzeugende KI lernte GPT-3.5 die Beziehungen zwischen Sätzen, Wörtern und Wortteilen durch Aufnahme großer Mengen von Inhalten aus dem Internet, darunter Hunderttausende von Wikipedia-Einträgen, Social-Media-Beiträgen und Nachrichtenartikeln.
Anstatt das vollständig trainierte GPT-3.5 zu veröffentlichen, hat OpenAI es verwendet, um mehrere Systeme zu erstellen, die für bestimmte Aufgaben fein abgestimmt sind – jedes verfügbar über die OpenAI-API. Einer – text-davinci-003 – kann laut dem Labor komplexere Anweisungen verarbeiten als Modelle, die auf GPT-3 basieren, und ist sowohl beim Langform- als auch beim Schreiben in „hoher Qualität“ messbar besser.
Laut OpenAI-Datenwissenschaftler Jan Leike ist text-davinci-003 ähnlich, aber nicht identisch mit InstructGPT, einer Familie von GPT-3-basierten Modellen, die Anfang dieses Jahres von OpenAI veröffentlicht wurden und weniger wahrscheinlich zu Problemen (z. B. toxisch und stark voreingenommen) führen ) Text, während er sich besser an der Absicht eines Benutzers ausrichtet. Text-davinci-003 – und damit GPT-3.5 – „schneidet bei den Bewertungen menschlicher Vorlieben besser ab“, während er unter „weniger schwerwiegenden“ Einschränkungen leidet, sagte Leike in einem Tweet.
Das scheint anekdotisch der Fall zu sein. Datenwissenschaftler bei Pepper Content, einer Content-Marketing-Plattform, Bericht dass text-davinci-003 „besser darin ist, den ‚Kontext‘ hinter einer Anfrage zu verstehen und diesen dann zu verwenden, um bessere Inhalte zu produzieren“, während es weniger „halluziniert“ als GPT-3-basierte Modelle. (Wo es um textgenerierende KI geht, Halluzination bezieht sich auf eine KI, die widersprüchliche, sachlich falsche Aussagen schreibt.)
In einem Test auf der Playground-Website von OpenAI, die ein UI-Frontend für die Modelle bereitstellt, fütterte das Pepper Content-Team text-davinci-003 und ein auf GPT-3 basierendes Modell (text-davinci-002) mit mehreren Eingabeaufforderungen. Angesichts der Frage „Was ist die Philosophie hinter WeWork?“ generierte der auf GPT-3.5 basierende Text-davinci-003 Folgendes:
WeWork ist ein globaler Workspace-Anbieter, der glaubt, dass Menschen das wichtigste Gut in jedem Unternehmen sind. Die Philosophie von WeWork ist es, eine kollaborative Umgebung zu schaffen, die es Menschen ermöglicht, flexibel und effizient zusammenzuarbeiten. Das Unternehmen fördert Zusammenarbeit und Produktivität und bietet gleichzeitig einen komfortablen und inspirierenden Raum.
WeWork engagiert sich auch dafür, eine sozial verantwortliche Organisation zu sein, indem Wege gefunden werden, die Auswirkungen auf die Umwelt zu reduzieren, sinnvolle Arbeitserfahrungen anzubieten und Vielfalt und Inklusion zu fördern. WeWork ist auch bestrebt, durch seine einzigartigen Community-basierten Programme, Veranstaltungen und Aktivitäten sinnvolle Erfahrungen für seine Mitglieder zu schaffen. Das Unternehmen ist davon überzeugt, dass Menschen mehr erreichen und sinnvolle Veränderungen bewirken können, wenn sie in einem inspirierenden und kooperativen Umfeld zusammenarbeiten.
Es ist nicht perfekt – beachten Sie die übermäßigen Kommas und Wiederholungen. Aber die Kopie ist sicherlich ansprechender als das, was der GPT-3-basierte Text-davinci-002 produziert hat:
Wir bei WeWork glauben an Offenheit, Zusammenarbeit und Gemeinschaft. Wir haben neu gedacht, was ein Arbeitsplatz sein kann, indem wir eine globale Gemeinschaft von Kreativen, Unternehmern und Start-ups zusammengebracht haben – alle, die etwas Sinnvolles aufbauen und die Welt verändern wollen. Wir sind stolz darauf, Ihr Nachbar, Kollege und Freund zu sein.
GPT-3.5 ist anscheinend auch besser darin, Blogbeiträge zu generieren. Hier ist, was das Pepper Content-Team herausfand, als es text-davinci-003 aufforderte, einen Beitrag über die Auswahl eines Sofas zu schreiben:
Wenn Sie Ihrem grünen Wohnzimmer ein frisches Aussehen verleihen möchten, ist das Hinzufügen des besten Sofas für den Raum ein guter Anfang. Bei der Auswahl des perfekten Sofas geht es jedoch um mehr als nur darum, ein Stück zu finden, das gut aussieht. Sie möchten ein Stück finden, das bequem ist und zu Ihrer grünen Wohnzimmereinrichtung passt.
In diesem Blog werden wir diskutieren, wie Sie ein Sofa für Ihr grünes Wohnzimmer auswählen können. Wir werden uns die verschiedenen Arten von verfügbaren Sofas ansehen, die Designfaktoren, die Sie bei Ihrer Auswahl berücksichtigen sollten, und wie Sie ein Sofa auswählen, das zu Ihrem Stil und Budget passt. Außerdem geben wir Ihnen Tipps zur Pflege und Wartung Ihres neuen Sofas. Am Ende dieses Blogs haben Sie alle Informationen, die Sie benötigen, um das perfekte für Ihr grünes Wohnzimmer auszuwählen.
Wieder ist es nicht narrensicher. GPT-3.5 fügte seltsamerweise den Teil über ein „grünes Wohnzimmer“ hinzu. Aber auch hier ist GPT-3 in seiner Generation grundlegender und weniger grammatikalisch korrekt:
Sofa ist eine der grundlegendsten Anforderungen in einem Wohnzimmer. Es ist nicht nur ein Möbelstück, sondern ein wichtiger Bestandteil der Einrichtung Ihres Wohnzimmers. Was sollten also die Kriterien bei der Auswahl eines Sofas sein? Wenn Sie sich darüber wundern, dann bleiben Sie bei mir, während ich die verschiedenen Aspekte des Sofas bespreche, die Ihnen helfen würden, das beste für sich selbst auszuwählen.
Experimente, die über die von Pepper Content hinausgehen, deuten darauf hin, dass GPT-3.5 in seinen Antworten tendenziell viel ausgefeilter und gründlicher ist als GPT-3. Zum Beispiel beim YouTube-Kanal All About AI aufgefordert text-davinci-003, um eine Geschichte über KI zu schreiben, erwähnte die Ausgabe des Modells Schlüsselkoryphäen auf diesem Gebiet, darunter Alan Turing und Arthur Samuelson, während dies bei text-davinci-002 nicht der Fall war. All About AI stellte außerdem fest, dass text-davinci-003 dazu neigte, Anweisungen nuancierter zu verstehen, indem es beispielsweise Details wie Titel, Beschreibung, Gliederung, Einführung und Zusammenfassung bereitstellte, wenn er gebeten wurde, ein Videoskript zu erstellen.
Das ist kein Zufall – ein Markenzeichen der Ausgaben von text-davinci-003/GPT-3.5 ist die Ausführlichkeit. (Dieser Autor kann sympathisieren.) In einem Analysefanden Wissenschaftler beim Startup Scale AI heraus, dass text-davinci-003/GPT-3.5 Ausgaben erzeugt, die etwa 65 % länger sind als text-davinci-002/GPT-3 mit identischen Eingabeaufforderungen.
Vielleicht weniger nützlich für die meisten potenziellen Benutzer, aber dennoch unterhaltsam, ist text-davinci-003/GPT-3.5 beim Komponieren von Liedern, Limericks und gereimten Gedichten besser als sein Vorgänger. Ars Technica Berichte dass Kommentatoren im Hacker News-Forum von Y Combinator text-davinci-003 benutzten, um ein Gedicht zu schreiben, das Albert Einsteins Relativitätstheorie erklärt, und das Gedicht dann im Stil von John Keats neu zu schreiben. Sehen:
Wenn Sie Einsteins Gedanken verstehen wollen
Es ist nicht so schwer, wenn Sie es versuchen
Allgemeine Relativitätstheorie ist der Name des Spiels
Wo Raum und Zeit nicht gleich bleiben können
Die Masse beeinflusst die Raumkrümmung
Was den Lauf der Zeit beeinflusst
Die Bewegung eines Objekts wird beeinflusst
Durch die erkannte Verzerrung
Je näher Sie einer großen Masse sind
Die langsamere Zeit scheint zu vergehen
Je weiter weg Sie sein können
Die Zeit wird sich beschleunigen, damit Sie sehen können
Das Scale-AI-Team fand sogar heraus, dass text-davinci-003/GPT-3.5 eine Vorstellung von Metern wie jambischer Pentameter hat. Sehen:
O sanfte Rosse, die mich schnell und tragen
sicher
Durch grüne Felder und Wege so
obskur,
Mein Herz quillt vor Stolz, mit ihm zusammen zu sein
Sie
Wie auf reiten wir die Welt neu zu sehen
Der Wind pfeift so durch unser Haar
frei
Und weckt eine Leidenschaft tief in mir.
Meine Seele erhebt sich, meine Geister steigen in die Höhe,
Mit dir zu reiten, mein treuster Freund, bin ich
Ihre Stärke und Anmut, Ihr Mut und
Dein Feuer,
Inspiriere uns beide, über unseren Erzeuger hinauszugehen.
Keine irdischen Fesseln können uns halten, nur das Schicksal,
Um weiter zu galoppieren, schaffen unsere wundersamen Bahnen
Entsprechend ist GPT-3.5 witziger als GPT-3 – zumindest aus subjektiver Sicht. Text-davinci-002/GPT-3 bitten, „einen Witz zu erzählen“ ergibt dies in der Regel:
Warum hat das Huhn die Straße überquert? Es auf die andere Seite schaffen.
Text-davinci-003/GPT-3.5 hat klügere Antworten:
F: Was hat der Fisch gesagt, als er gegen die Wand prallte? Adam!
Q: Was tat eines Ozean sagen zu das Sonstiges Ozean? EIN: Nichts, sie nur winkte.
Scale AI ließ das Modell Python-Code im Stil von Eminem erklären, eine Leistung, die text-davinci-002/GPT-3 einfach nicht vollbringen konnte:
Yo, also gehe ich diese Liste durch
Mit jedem Gegenstand, den ich finde
Ich werde jeden Buchstaben in jedem ausdrucken
von ihnen
Hund, Katze, Banane, Apfel, ich hole sie
alles mit diesem Reim
Warum ist GPT-3.5 in diesen bestimmten Bereichen besser als GPT-3? Wir können die genaue Antwort nicht ohne zusätzliche Details von OpenAI wissen, die nicht bevorstehen; Ein OpenAI-Sprecher lehnte eine Bitte um Stellungnahme ab. Aber es ist sicher anzunehmen, dass der Trainingsansatz von GPT-3.5 etwas damit zu tun hatte. Wie InstructGPT wurde GPT-3.5 mit Hilfe menschlicher Trainer trainiert, die die Art und Weise, wie frühe Versionen des Modells auf Eingabeaufforderungen reagierten, einstuften und bewerteten. Diese Informationen wurden dann wieder in das System eingespeist, das seine Antworten an die Präferenzen der Trainer anpasste.
Das macht GPT-3.5 natürlich nicht immun gegen die Fallstricke, denen alle modernen Sprachmodelle unterliegen. Da sich GPT-3.5 lediglich auf statistische Regelmäßigkeiten in seinen Trainingsdaten verlässt und nicht auf ein menschenähnliches Verständnis der Welt, ist es nach Leikes Worten immer noch anfällig für „mak[ing] einen Haufen vollstopfen.“ Es hat auch begrenztes Wissen über die Welt nach 2021, weil seine Trainingsdaten nach diesem Jahr spärlicher sind. Und die Schutzmaßnahmen des Modells gegen giftige Ausgabe können sein umgangen.
Dennoch zeigen GPT-3.5 und seine abgeleiteten Modelle, dass GPT-4 – wann immer es kommt – nicht unbedingt eine große Anzahl von Parametern benötigt, um die leistungsfähigsten Texterzeugungssysteme von heute zu übertreffen. (Parameter sind die Teile des Modells, die aus historischen Trainingsdaten gelernt wurden, und definieren im Wesentlichen die Fähigkeiten des Modells bei einem Problem.) Während einige dies getan haben vorhergesagt dass GPT-4 über 100 Billionen Parameter enthalten wird – fast 600-mal so viele wie GPT-3 – andere argumentieren, dass neue Techniken in der Sprachverarbeitung, wie sie in GPT-3.5 und InstructGPT zu sehen sind, einen solchen Sprung unnötig machen werden.
Eine dieser Techniken könnte darin bestehen, im Internet nach mehr Kontext zu suchen, a la Meta unglücklichen BlenderBot 3.0 Chatbot. John Shulman, ein Forschungswissenschaftler und Mitbegründer von OpenAI, gesagt MIT Tech Review in einem kürzlichen Interview, dass OpenAI die Arbeit an einem Ende letzten Jahres angekündigten Sprachmodell, WebGPT, fortsetzt, das Informationen im Internet (über Bing) nachschlagen und Quellen für seine Antworten angeben kann. Mindestens ein Twitter-Nutzer erscheint Beweise dafür gefunden zu haben, dass die Funktion für ChatGPT getestet wird.
OpenAI hat einen weiteren Grund, Modelle mit niedrigeren Parametern zu verfolgen, während es GPT-3 weiterentwickelt: enorme Kosten. Ein 2020 lernen aus AI21-Labors die Kosten für die Entwicklung eines textgenerierenden Modells mit nur 1,5 Milliarden Parametern auf bis zu 1,6 Millionen US-Dollar festgesetzt. OpenAI hat erzogen bisher über 1 Milliarde US-Dollar von Microsoft und anderen Unterstützern, und es ist angeblich in Gesprächen, um mehr zu erheben. Aber alle Investoren, egal wie groß, erwarten irgendwann Renditen.