Erinnern Sie sich an die Zeit vor einem Jahr, bis zum letzten November, bevor wir von ChatGPT wussten, als es beim maschinellen Lernen darum ging, Modelle zu erstellen, die für eine einzelne Aufgabe wie Kreditgenehmigungen oder Betrugsschutz gelöst werden sollten? Dieser Ansatz schien mit dem Aufkommen verallgemeinerter LLMs in Vergessenheit zu geraten, aber Tatsache ist, dass verallgemeinerte Modelle nicht für jedes Problem gut geeignet sind und aufgabenbasierte Modelle in Unternehmen immer noch am Leben sind.
Diese aufgabenbasierten Modelle waren bis zum Aufkommen von LLMs die Grundlage für den Großteil der KI in Unternehmen und werden auch weiterhin verschwinden. Es ist das, was Amazon-CTO Werner Vogels in seiner Keynote diese Woche als „gute altmodische KI“ bezeichnete, und seiner Ansicht nach ist es die Art von KI, die immer noch viele Probleme der realen Welt löst.
Atul Deo, General Manager von Amazon Bedrock, dem Produkt, das Anfang des Jahres eingeführt wurde, um sich über APIs an eine Vielzahl großer Sprachmodelle anzuschließen, ist ebenfalls davon überzeugt, dass Aufgabenmodelle nicht einfach verschwinden werden. Stattdessen sind sie zu einem weiteren KI-Werkzeug im Arsenal geworden.
„Vor dem Aufkommen großer Sprachmodelle befanden wir uns größtenteils in einer aufgabenspezifischen Welt. Und die Idee dort war, dass man ein Modell von Grund auf für eine bestimmte Aufgabe trainieren würde“, sagte Deo gegenüber Tech. Er sagt, dass der Hauptunterschied zwischen dem Aufgabenmodell und dem LLM darin besteht, dass einer für diese spezielle Aufgabe geschult ist, während der andere Dinge außerhalb der Grenzen des Modells bewältigen kann.
Jon Turow, Partner bei der Investmentfirma Madrona, der zuvor fast ein Jahrzehnt bei AWS verbrachte, sagt, dass die Branche über neue Fähigkeiten in großen Sprachmodellen wie Argumentation und Out-of-Domain-Robustheit gesprochen habe. „Damit können Sie über die enge Definition dessen hinausgehen, was das Modell ursprünglich leisten sollte“, sagte er. Aber, fügte er hinzu, es stehe immer noch zur Debatte, wie weit diese Fähigkeiten gehen könnten.
Wie Deo sagt Turow, dass Aufgabenmodelle nicht einfach plötzlich verschwinden werden. „Aufgabenspezifische Modelle spielen eindeutig immer noch eine Rolle, weil sie kleiner, schneller und kostengünstiger sein können und in manchen Fällen sogar leistungsfähiger sein können, weil sie für eine bestimmte Aufgabe konzipiert sind“, sagte er .
Aber die Verlockung eines Allzweckmodells ist kaum zu übersehen. „Wenn man in einem Unternehmen die aggregierte Ebene betrachtet und Hunderte von Modellen für maschinelles Lernen separat trainiert, ergibt das keinen Sinn“, sagte Deo. „Wenn Sie sich dagegen für ein leistungsfähigeres großes Sprachmodell entscheiden, profitieren Sie sofort von den Vorteilen der Wiederverwendbarkeit und können gleichzeitig ein einziges Modell verwenden, um eine Reihe verschiedener Anwendungsfälle zu bewältigen.“
Für Amazon bleibt SageMaker, die Plattform für maschinelles Lernen des Unternehmens, ein Schlüsselprodukt, das sich an Datenwissenschaftler richtet und nicht an Entwickler, wie es Bedrock tut. Es wird berichtet Zehntausende Kunden bauen Millionen von Modellen. Es wäre tollkühn, das aufzugeben, und ehrlich gesagt bedeutet die Tatsache, dass LLMs der Trend der Zeit sind, nicht, dass die Technologie, die es gab, nicht noch für einige Zeit relevant bleiben wird.
Insbesondere Unternehmenssoftware funktioniert so nicht. Niemand gibt seine beträchtliche Investition einfach auf, weil etwas Neues aufgetaucht ist, auch wenn es so mächtig ist wie die aktuellen großen Sprachmodelle. Es ist erwähnenswert, dass Amazon diese Woche Upgrades für SageMaker angekündigt hat, die direkt auf die Verwaltung großer Sprachmodelle abzielen.
Vor diesen leistungsfähigeren großen Sprachmodellen war das Aufgabenmodell eigentlich die einzige Option, und so gingen Unternehmen vor, indem sie ein Team von Datenwissenschaftlern zusammenstellten, um bei der Entwicklung dieser Modelle zu helfen. Welche Rolle spielt der Datenwissenschaftler im Zeitalter großer Sprachmodelle, in denen sich Tools an Entwickler richten? Turow glaubt, dass sie auch in Unternehmen, die sich auf LLMs konzentrieren, noch eine Schlüsselaufgabe vor sich haben.
„Sie werden kritisch über Daten nachdenken, und das ist tatsächlich eine Rolle, die wächst und nicht schrumpft“, sagte er. Unabhängig vom Modell glaubt Turow, dass Datenwissenschaftler den Menschen helfen werden, die Beziehung zwischen KI und Daten in großen Unternehmen zu verstehen.
„Ich denke, jeder von uns muss wirklich kritisch darüber nachdenken, wozu KI fähig ist und was nicht und was Daten bedeuten und was nicht“, sagte er. Und das gilt unabhängig davon, ob Sie ein allgemeineres großes Sprachmodell oder ein Aufgabenmodell erstellen.
Aus diesem Grund werden diese beiden Ansätze noch einige Zeit gleichzeitig funktionieren, denn manchmal ist größer besser und manchmal nicht.