Die aufkommenden Arten von Sprachmodellen und warum sie wichtig sind – Tech

Soul Hackers 2 Erscheinungsdatum Ankuendigungstrailer enthuellt

KI-Systeme, die Text verstehen und generieren, sogenannte Sprachmodelle, sind die heißeste Neuigkeit im Unternehmen. Ein kürzlich Umfrage fanden heraus, dass 60 % der Technologieführer angaben, dass ihre Budgets für KI-Sprachtechnologien im Jahr 2020 um mindestens 10 % gestiegen sind, während 33 % eine Steigerung um 30 % angaben.

Aber nicht alle Sprachmodelle sind gleich. Mehrere Typen erweisen sich als dominant, darunter große Allzweckmodelle wie GPT-3 von OpenAI und Modelle, die auf bestimmte Aufgaben abgestimmt sind (denken Sie an die Beantwortung von IT-Desk-Fragen). Am Rande gibt es eine dritte Kategorie von Modellen – eines, das in der Regel stark komprimiert und auf wenige Funktionen beschränkt ist und speziell für die Ausführung auf Geräten und Workstations des Internets der Dinge entwickelt wurde.

Diese unterschiedlichen Ansätze haben große Unterschiede in Stärken, Schwächen und Anforderungen – hier sehen Sie, wie sie verglichen werden und wo Sie erwarten können, dass sie in den nächsten ein oder zwei Jahren eingesetzt werden.

Große Sprachmodelle

Große Sprachmodelle sind im Allgemeinen mehrere zehn Gigabyte groß und mit enormen Mengen an Textdaten trainiert, manchmal im Petabyte-Bereich. Sie gehören auch in Bezug auf die Anzahl der Parameter zu den größten Modellen, wobei sich ein „Parameter“ auf einen Wert bezieht, den das Modell beim Lernen unabhängig ändern kann. Parameter sind die Teile des Modells, die aus historischen Trainingsdaten gelernt wurden, und definieren im Wesentlichen die Fähigkeiten des Modells bei einem Problem, z. B. beim Generieren von Text.

„Große Modelle werden für Null-Schuss-Szenarien oder Wenig-Schuss-Szenarien verwendet, in denen wenig Domain-[tailored] Trainingsdaten sind verfügbar und funktionieren normalerweise in Ordnung etwas basierend auf ein paar Eingabeaufforderungen zu generieren“, Fangzheng Xu, ein Ph.D. Student an der Carnegie Mellon, spezialisiert auf die Verarbeitung natürlicher Sprache, teilte Tech per E-Mail mit. Beim maschinellen Lernen bezieht sich „Few-Shot“ auf die Praxis, ein Modell mit minimalen Daten zu trainieren, während „Zero-Shot“ impliziert, dass ein Modell lernen kann, Dinge zu erkennen, die es während des Trainings nicht explizit gesehen hat.

„Ein einziges großes Modell könnte potenziell viele nachgelagerte Aufgaben mit wenigen Trainingsdaten ermöglichen“, fuhr Xu fort.

Die Verwendung großer Sprachmodelle hat in den letzten Jahren dramatisch zugenommen, da Forscher neuere – und größere – Architekturen entwickeln. Im Juni 2020 veröffentlichte das KI-Startup OpenAI GPT-3, ein Modell mit 175 Milliarden Parametern, das Text und sogar Code generieren kann, wenn eine kurze Eingabeaufforderung mit Anweisungen gegeben wird. Die offene Forschungsgruppe EleutherAI stellte daraufhin GPT-J zur Verfügung, ein kleineres (6 Milliarden Parameter), aber dennoch leistungsfähiges Sprachmodell, das zwischen Sprachen übersetzen, Blog-Posts schreiben, Code vervollständigen und mehr kann. Vor kurzem haben Microsoft und Nvidia ein Open-Source-Modell namens Megatron-Turing Natural Language Generation (MT-NLG) veröffentlicht, das zu den größten Modellen für Leseverständnis und Leseverständnis gehört natürlichsprachliche Inferenz bis heute bei 530 Milliarden Parametern entwickelt.

„Ein Grund, warum diese großen Sprachmodelle so bemerkenswert bleiben, ist, dass ein einziges Modell für Aufgaben verwendet werden kann“, einschließlich Fragenbeantwortung, Dokumentenzusammenfassung, Texterstellung, Satzvervollständigung, Übersetzung und mehr, Bernard Koch, ein Computational Social Scientist an der UCLA, teilte Tech per E-Mail mit. „Ein zweiter Grund ist, dass ihre Leistung weiter skaliert, wenn Sie mehr Parameter zum Modell hinzufügen und mehr Daten hinzufügen … Der dritte Grund, warum sehr große vortrainierte Sprachmodelle bemerkenswert sind, ist, dass sie in der Lage zu sein scheinen, anständige Vorhersagen zu treffen, wenn ihnen nur eine Handvoll gegeben wird von beschrifteten Beispielen.“

Startups wie Cohere und AI21 Labs bieten über APIs ebenfalls Modelle an, die GPT-3 ähneln. Andere Unternehmen, insbesondere Technologiegiganten wie Google, haben sich dafür entschieden, die großen Sprachmodelle, die sie entwickelt haben, intern und unter Verschluss zu halten. Beispielsweise hat Google kürzlich ein 540-Milliarden-Parameter-Modell namens PaLM detailliert beschrieben – aber die Veröffentlichung abgelehnt –, von dem das Unternehmen behauptet, dass es bei Sprachaufgaben eine hochmoderne Leistung erzielt.

Große Sprachmodelle, Open Source oder nicht, alle haben hohe Entwicklungskosten gemeinsam. Ein 2020 lernen aus AI21-Labors die Kosten für die Entwicklung eines textgenerierenden Modells mit nur 1,5 Milliarden Parametern auf bis zu 1,6 Millionen US-Dollar festgesetzt. Inferenz – das eigentliche Ausführen des trainierten Modells – ist eine weitere Belastung. Eine Quelle Schätzungen die Kosten für die Ausführung von GPT-3 auf einer einzelnen AWS-Instanz (p3dn.24xlarge) bei einem Minimum von 87.000 $ pro Jahr.

„Große Modelle werden größer, leistungsstärker, vielseitiger, multimodaler und billiger zu trainieren. Nur Big Tech und extrem gut finanzierte Startups können dieses Spiel spielen“, erklärt Vu Ha, technischer Direktor bei der AI2 Inkubator, teilte Tech per E-Mail mit. „Große Modelle eignen sich hervorragend für das Prototyping, den Aufbau neuartiger Proof-of-Concepts und die Bewertung der technischen Machbarkeit. Aus Kostengründen sind sie selten die richtige Wahl für den Einsatz in der realen Welt. Eine Anwendung, die regelmäßig Tweets, Slack-Nachrichten, E-Mails und dergleichen verarbeitet, würde bei Verwendung von GPT-3 unerschwinglich werden.“

Große Sprachmodelle werden weiterhin der Standard für Cloud-Dienste und APIs sein, bei denen Vielseitigkeit und Unternehmenszugriff wichtiger sind als Latenz. Aber trotz neuer Architektur Innovationenwerden diese Arten von Sprachmodellen für die Mehrheit der Organisationen unpraktisch bleiben, sei es im akademischen, öffentlichen oder privaten Sektor.

Fein abgestimmte Sprachmodelle

Feinabgestimmte Modelle sind im Allgemeinen kleiner als ihre großen Sprachmodell-Pendants. Beispiele hierfür sind Codex von OpenAI, ein direkter Nachkomme von GPT-3, der für Programmieraufgaben optimiert wurde. Obwohl Codex immer noch Milliarden von Parametern enthält, ist es sowohl kleiner als OpenAI als auch besser darin, Computercode-Strings zu generieren – und zu vervollständigen.

Die Feinabstimmung kann die Fähigkeit eines Modells verbessern, eine Aufgabe auszuführen, beispielsweise das Beantworten von Fragen oder das Generieren von Proteinsequenzen (wie im Fall von Salesforce ProGen). Aber es kann auch das Verständnis eines Models für bestimmte Themen stärken, wie z klinische Forschung.

„Fein abgestimmte … Modelle sind gut für ausgereifte Aufgaben mit vielen Trainingsdaten“, sagte Xu. „Beispiele sind maschinelle Übersetzung, Beantwortung von Fragen, Erkennung benannter Entitäten, Verknüpfung von Entitäten [and] Informationsrückgewinnung.“

Die Vorteile hören hier nicht auf. Da fein abgestimmte Modelle von vorhandenen Sprachmodellen abgeleitet werden, benötigen fein abgestimmte Modelle nicht annähernd so viel Zeit – oder Rechenleistung – zum Trainieren oder Ausführen. (Größere Modelle wie die oben erwähnten können Wochen dauern oder viel mehr Rechenleistung erfordern, um in Tagen trainiert zu werden.) Sie erfordern auch nicht so viele Daten wie große Sprachmodelle. GPT-3 wurde mit 45 Terabyte Text trainiert, im Vergleich zu den 159 Gigabyte, mit denen Codex trainiert wurde.

Die Feinabstimmung wurde auf viele Domänen angewendet, aber ein besonders starkes aktuelles Beispiel ist InstructGPT von OpenAI. Unter Verwendung einer Technik namens „bestärkendes Lernen aus menschlichem Feedback“ sammelte OpenAI einen Datensatz von von Menschen geschriebenen Demonstrationen zu Eingaben, die an die OpenAI-API übermittelt wurden, und Eingaben, die von einem Team menschlicher Datenetikettierer geschrieben wurden. Sie nutzten diese Datensätze, um fein abgestimmte Ableger von GPT-3 zu erstellen, die – abgesehen davon, dass sie ein Hundertstel der Größe von GPT-3 sind – nachweislich weniger wahrscheinlich problematischen Text generieren, während sie sich eng an der Absicht eines Benutzers orientieren.

In einer weiteren Demonstration der Kraft der Feinabstimmung veröffentlichten Google-Forscher im Februar a lernen behauptet, dass ein weitaus kleineres Modell als GPT-3 – fein abgestimmtes Sprachnetz (FLAN) – GPT-3 „mit großem Abstand“ bei einer Reihe anspruchsvoller Benchmarks übertrifft. FLAN mit 137 Milliarden Parametern übertraf GPT-3 bei 19 der 25 Aufgaben, bei denen die Forscher es getestet haben, und übertraf sogar die Leistung von GPT-3 bei 10 Aufgaben.

„Ich denke, Feinabstimmung ist derzeit wahrscheinlich der am weitesten verbreitete Ansatz in der Industrie, und ich sehe nicht, dass sich das kurzfristig ändern wird. Im Moment ermöglicht die Feinabstimmung kleinerer Sprachmodelle den Benutzern mehr Kontrolle, um ihre speziellen Probleme mit ihren eigenen domänenspezifischen Daten zu lösen“, sagte Koch. „Anstatt zu verteilen [very large language] Modelle, die Benutzer selbst optimieren können, kommerzialisieren Unternehmen das Lernen mit wenigen Schüssen durch API-Eingabeaufforderungen, bei denen Sie dem Modell kurze Eingabeaufforderungen und Beispiele geben können.“

Edge-Sprachmodelle

Edge-Modelle, die absichtlich klein sind, kann nehmen die Form von fein abgestimmten Modellen an – aber nicht immer. Manchmal werden sie von Grund auf an kleinen Datensätzen trainiert, um bestimmte Hardwarebeschränkungen zu erfüllen (z. B. Telefon- oder lokale Webserver-Hardware). In jedem Fall bieten Edge-Modelle – obwohl sie in mancher Hinsicht eingeschränkt sind – eine Vielzahl von Vorteilen, die große Sprachmodelle nicht erreichen können.

Die Kosten sind ein wichtiger Faktor. Mit einem Edge-Modell, das offline und auf dem Gerät ausgeführt wird, fallen keine Cloud-Nutzungsgebühren an. (Selbst fein abgestimmte Modelle sind oft zu groß, um auf lokalen Computern ausgeführt zu werden; MT-NLG kann über eine Minute dauern, um Text auf einem Desktop-Prozessor zu generieren.) Aufgaben wie das Analysieren von Millionen von Tweets können in der beliebten Cloud Tausende von Dollar an Gebühren verursachen -basierte Modelle.

Edge-Modelle bieten theoretisch auch mehr Privatsphäre als ihre internetgebundenen Pendants, da sie keine Daten in der Cloud übertragen oder analysieren müssen. Außerdem sind sie schneller – ein entscheidender Vorteil für Anwendungen wie die Übersetzung. Apps wie Google Translate verlassen sich auf Edge-Modelle, um Offline-Übersetzungen zu liefern.

„Edge-Computing wird wahrscheinlich in Umgebungen eingesetzt, in denen sofortiges Feedback erforderlich ist … Im Allgemeinen würde ich denken, dass dies Szenarien sind, in denen Menschen im Dialog mit KI oder Robotern oder so etwas wie selbstfahrenden Autos interagieren, die Verkehrszeichen lesen“, sagte Koch. „Als hypothetisches Beispiel hat Nvidia eine Demo, bei der ein Edge-Chatbot ein Gespräch mit Kunden in einem Fast-Food-Restaurant führt. Ein letzter Anwendungsfall könnte die automatisierte Aufzeichnung von Notizen in elektronischen Krankenakten sein. In solchen Situationen ist es wichtig, das Gespräch schnell zu verarbeiten.“

Natürlich können kleine Modelle nicht alles leisten, was große Modelle können. Sie sind an die Hardware gebunden, die in Edge-Geräten zu finden ist, die von Single-Core-Prozessoren bis hin zu mit GPU ausgestatteten Systems-on-Chips reichen. Darüber hinaus deuten einige Forschungsergebnisse darauf hin, dass die Techniken, die zu ihrer Entwicklung verwendet werden, dies können verstärken unerwünschte Eigenschaftenwie algorithmische Voreingenommenheit.

„[There’s usually a] Kompromiss zwischen Stromverbrauch und Vorhersagekraft. Außerdem nimmt die Rechenleistung mobiler Geräte nicht wirklich im gleichen Tempo wie verteilte Hochleistungs-Computing-Cluster zu, sodass die Leistung möglicherweise immer mehr hinterherhinkt“, sagte Xu.

In die Zukunft schauen

Da sich große, fein abgestimmte und Edge-Sprachmodelle mit neuen Forschungsergebnissen weiterentwickeln, werden sie auf dem Weg zu einer breiteren Akzeptanz wahrscheinlich auf Hindernisse stoßen. Während zum Beispiel für die Feinabstimmung von Modellen weniger Daten erforderlich sind als für das Training eines Modells von Grund auf, erfordert die Feinabstimmung dennoch a Datensatz. Je nach Domäne – z. B. Übersetzen aus einer wenig gesprochenen Sprache – sind die Daten möglicherweise nicht vorhanden.

„TDer Nachteil der Feinabstimmung besteht darin, dass immer noch eine beträchtliche Datenmenge erforderlich ist. Der Nachteil des Lernens mit wenigen Schüssen besteht darin, dass es nicht so gut funktioniert wie die Feinabstimmung und dass Datenwissenschaftler und Ingenieure für maschinelles Lernen weniger Kontrolle über das Modell haben, da sie nur über eine API damit interagieren“, so Koch weiter. „Und die Nachteile der Edge-KI bestehen darin, dass komplexe Modelle nicht auf kleine Geräte passen, sodass die Leistung deutlich schlechter ist als bei Modellen, die auf eine einzelne Desktop-GPU passen – geschweige denn Cloud-basierte große Sprachmodelle, die auf Zehntausende von GPUs verteilt sind.“

Xu stellt fest, dass alle Sprachmodelle, unabhängig von ihrer Größe, in bestimmten wichtigen Aspekten noch zu wenig erforscht sind. Sie hofft, dass Bereiche wie Erklärbarkeit und Interpretierbarkeit – die darauf abzielen, zu verstehen, wie und warum ein Modell funktioniert, und diese Informationen den Benutzern zugänglich zu machen – in Zukunft mehr Aufmerksamkeit und Investitionen erhalten, insbesondere in „wichtigen“ Bereichen wie der Medizin.

„Provenienz ist wirklich ein wichtiger nächster Schritt, den diese Modelle haben sollten“, sagte Xu. „In Zukunft wird es immer effizientere Feinabstimmungstechniken geben … um die steigenden Kosten für die Feinabstimmung eines größeren Modells insgesamt zu bewältigen. Edge-Modelle werden weiterhin wichtig sein, denn je größer das Modell ist, desto mehr Forschung und Entwicklung ist erforderlich, um das Modell zu destillieren oder zu komprimieren, damit es auf Edge-Geräte passt.“

tch-1-tech