Databricks hat 10 Millionen US-Dollar für das neue generative KI-Modell DBRX ausgegeben, aber es kann GPT-4 nicht schlagen

Wenn Sie den Bekanntheitsgrad Ihres großen Technologieunternehmens steigern wollten und 10 Millionen US-Dollar ausgeben könnten, wie würden Sie diese ausgeben? Auf einer Super-Bowl-Werbung? Ein F1-Sponsoring?

Du könnte Verbringen Sie es damit, ein generatives KI-Modell zu trainieren. Generative Modelle vermarkten zwar nicht im herkömmlichen Sinne, ziehen aber die Aufmerksamkeit auf sich – und führen zunehmend zu den Standardprodukten und -dienstleistungen der Anbieter.

Sehen Sie sich DBRX von Databricks an, ein neues generatives KI-Modell, das heute angekündigt wurde und der GPT-Serie von OpenAI und Gemini von Google ähnelt. Basisversionen (DBRX Base) und optimierte Versionen (DBRX Instruct) sind auf GitHub und der KI-Entwicklungsplattform Hugging Face für Forschungs- und kommerzielle Zwecke verfügbar und können auf öffentlichen, benutzerdefinierten oder anderweitig proprietären Daten ausgeführt und optimiert werden.

„DBRX wurde darauf trainiert, nützlich zu sein und Informationen zu einer Vielzahl von Themen bereitzustellen“, sagte Naveen Rao, Vizepräsident für generative KI bei Databricks, in einem Interview mit Tech. „DBRX wurde für die Verwendung der englischen Sprache optimiert und abgestimmt, ist jedoch in der Lage, Gespräche zu führen und in eine Vielzahl von Sprachen zu übersetzen, beispielsweise Französisch, Spanisch und Deutsch.“

Databricks beschreibt DBRX als „Open Source“, ähnlich wie „Open Source“-Modelle wie Metas Llama 2 und die Modelle des KI-Startups Mistral. (Es ist das Thema von robust Debatte ob diese Modelle wirklich der Definition von Open Source entsprechen.)

Databricks gibt an, etwa 10 Millionen US-Dollar und acht Monate für die Schulung von DBRX aufgewendet zu haben, von dem es behauptet (Zitat aus einer Pressemitteilung), dass es „überdurchschnittliche Leistungen erbringt“.[s] alle vorhandenen Open-Source-Modelle auf Standard-Benchmarks.“

Aber – und hier liegt das Problem des Marketings – es ist außerordentlich schwierig, DBRX zu verwenden, es sei denn, Sie sind Databricks-Kunde.

Denn um DBRX in der Standardkonfiguration auszuführen, benötigen Sie einen Server oder PC mit mindestens vier Nvidia H100-GPUs. Ein einzelner H100 kostet Tausende von Dollar – möglicherweise sogar mehr. Das mag für ein durchschnittliches Unternehmen ein Kinderspiel sein, aber für viele Entwickler und Solopreneure ist es weit außerhalb der Reichweite.

Und es gibt noch Kleingedrucktes. Laut Databricks werden Unternehmen mit mehr als 700 Millionen aktiven Nutzern mit „gewissen Einschränkungen“ konfrontiert sein vergleichbar zu Metas für Llama 2, und dass alle Benutzer den Bedingungen zustimmen müssen, die sicherstellen, dass sie DBRX „verantwortungsvoll“ verwenden. (Databricks hatte die Einzelheiten dieser Begriffe zum Zeitpunkt der Veröffentlichung nicht freiwillig bekannt gegeben.)

Databricks präsentiert sein Produkt „Mosaic AI Foundation Model“ als verwaltete Lösung für diese Hindernisse, das zusätzlich zur Ausführung von DBRX und anderen Modellen einen Trainingsstapel für die Feinabstimmung von DBRX auf benutzerdefinierten Daten bereitstellt. Kunden können DBRX privat mit dem Model Serving-Angebot von Databricks hosten, schlug Rao vor, oder sie können mit Databricks zusammenarbeiten, um DBRX auf der Hardware ihrer Wahl bereitzustellen.

Rao fügte hinzu:

Wir konzentrieren uns darauf, die Databricks-Plattform zur besten Wahl für die maßgeschneiderte Modellerstellung zu machen, sodass der Vorteil für Databricks letztendlich darin besteht, dass mehr Benutzer unsere Plattform nutzen. DBRX ist eine Demonstration unserer erstklassigen Pre-Training- und Tuning-Plattform, mit der Kunden ihre eigenen Modelle von Grund auf erstellen können. Für Kunden ist es eine einfache Möglichkeit, mit den generativen KI-Tools von Databricks Mosaic AI zu beginnen. Und DBRX ist sofort einsatzbereit und kann für eine hervorragende Leistung bei bestimmten Aufgaben bei besserer Wirtschaftlichkeit als große, geschlossene Modelle abgestimmt werden.

Databricks gibt an, dass DBRX bis zu 2x schneller läuft als Llama 2, was zum Teil auf die MoE-Architektur (Mix of Experts) zurückzuführen ist. MoE – das DBRX mit Llama 2, den neueren Modellen von Mistral und dem kürzlich angekündigten Gemini 1.5 Pro von Google gemeinsam hat – unterteilt Datenverarbeitungsaufgaben grundsätzlich in mehrere Unteraufgaben und delegiert diese Unteraufgaben dann an kleinere, spezialisierte „Experten“-Modelle.

Die meisten MoE-Modelle verfügen über acht Experten. DBRX hat 16, was laut Databricks die Qualität verbessert.

Qualität ist jedoch relativ.

Während Databricks behauptet, dass DBRX die Modelle von Llama 2 und Mistral bei bestimmten Sprachverständnis-, Programmier-, Mathematik- und Logik-Benchmarks übertrifft, bleibt DBRX in den meisten Bereichen außerhalb von Nischenanwendungsfällen wie der Datenbankprogrammierung hinter dem wohl führenden generativen KI-Modell, OpenAIs GPT-4, zurück Sprachgenerierung.

Rao gibt zu, dass DBRX auch andere Einschränkungen aufweist, nämlich dass es – wie alle anderen generativen KI-Modelle – trotz der Arbeit von Databricks bei Sicherheitstests und Red Teaming Opfer von „halluzinierenden“ Antworten auf Anfragen werden kann. Da das Modell lediglich darauf trainiert wurde, Wörter oder Phrasen mit bestimmten Konzepten zu verknüpfen, sind die Antworten nicht immer korrekt, wenn diese Assoziationen nicht ganz korrekt sind.

Außerdem ist DBRX im Gegensatz zu einigen neueren generativen KI-Flaggschiffmodellen, darunter Gemini, nicht multimodal. (Es kann nur Text verarbeiten und generieren, keine Bilder.) Und wir wissen nicht genau, welche Datenquellen zum Trainieren verwendet wurden. Rao gab lediglich bekannt, dass beim Training von DBRX keine Databricks-Kundendaten verwendet wurden.

„Wir haben DBRX anhand einer großen Datenmenge aus unterschiedlichen Quellen trainiert“, fügte er hinzu. „Wir haben offene Datensätze verwendet, die die Community kennt, liebt und jeden Tag nutzt.“

Ich fragte Rao, ob einer der DBRX-Trainingsdatensätze urheberrechtlich geschützt oder lizenziert sei oder offensichtliche Anzeichen von Voreingenommenheit (z. B. Rassenvoreingenommenheit) aufweise, aber er antwortete nicht direkt und sagte nur: „Wir sind mit den verwendeten Daten vorsichtig umgegangen.“ und führte Red-Teaming-Übungen durch, um die Schwächen des Modells zu verbessern.“ Generative KI-Modelle neigen dazu, Trainingsdaten wieder auszustoßen, was ein großes Problem für kommerzielle Nutzer von Modellen darstellt, die auf nicht lizenzierten, urheberrechtlich geschützten oder ganz offensichtlich voreingenommenen Daten trainiert wurden. Im schlimmsten Fall könnte ein Benutzer in ethische und rechtliche Schwierigkeiten geraten, weil er unabsichtlich IP-verletzende oder voreingenommene Arbeiten eines Modells in seine Projekte integriert.

Einige Unternehmen, die generative KI-Modelle schulen und veröffentlichen, bieten Richtlinien an, die die Anwaltskosten abdecken, die bei möglichen Verstößen entstehen. Databricks tut dies derzeit nicht – Rao sagt, dass das Unternehmen „Szenarien erforscht“, unter denen dies der Fall sein könnte.

Angesichts dieser und der anderen Aspekte, in denen DBRX das Ziel verfehlt, scheint das Modell nur für aktuelle oder potenzielle Databricks-Kunden schwer zu verkaufen zu sein. Die Konkurrenten von Databricks im Bereich der generativen KI, darunter OpenAI, bieten gleichermaßen, wenn nicht sogar noch überzeugendere Technologien zu sehr wettbewerbsfähigen Preisen. Und viele generative KI-Modelle kommen der allgemein verstandenen Definition von Open Source näher als DBRX.

Rao verspricht, dass Databricks DBRX weiter verfeinern und neue Versionen veröffentlichen wird, während das Forschungs- und Entwicklungsteam von Mosaic Labs des Unternehmens – das Team hinter DBRX – neue generative KI-Möglichkeiten untersucht.

„DBRX treibt den Open-Source-Modellbereich voran und stellt die Herausforderung dar, zukünftige Modelle noch effizienter zu erstellen“, sagte er. „Wir werden Varianten veröffentlichen, während wir Techniken anwenden, um die Ausgabequalität in Bezug auf Zuverlässigkeit, Sicherheit und Voreingenommenheit zu verbessern … Wir sehen das offene Modell als eine Plattform, auf der unsere Kunden mit unseren Tools maßgeschneiderte Funktionen aufbauen können.“

Gemessen daran, wo DBRX derzeit im Vergleich zu seinen Mitbewerbern steht, liegt noch ein außergewöhnlich langer Weg vor uns.

tch-1-tech