Databricks erweitert Mosaic AI, um Unternehmen beim Aufbau mit LLMs zu unterstützen

Vor einem Jahr erwarb Databricks MosaicML für 1,3 Milliarden Dollar. Die Plattform, die inzwischen in Mosaic AI umbenannt wurde, ist zu einem integralen Bestandteil der KI-Lösungen von Databricks geworden. Heute stellt das Unternehmen auf dem Data + AI Summit eine Reihe neuer Funktionen für den Dienst vor. Im Vorfeld der Ankündigungen sprach ich mit den Mitbegründern von Databricks, CEO Ali Ghodsi und CTO Matei Zaharia.

Databricks bringt fünf neue Mosaic-KI-Tools auf seiner Konferenz: Mosaic AI Agent Framework, Mosaic AI Agent Evaluation, Mosaic AI Tools Catalog, Mosaic AI Model Training und Mosaic AI Gateway.

„Es war ein fantastisches Jahr – enorme Entwicklungen bei GenAI. Alle sind begeistert“, sagte mir Ghodsi. „Aber alle sind immer noch auf der Suche nach den gleichen drei Dingen: Wie können wir die Qualität oder Zuverlässigkeit dieser Modelle verbessern? Und zweitens, wie stellen wir sicher, dass es kosteneffizient ist? Und hier gibt es enorme Kostenunterschiede zwischen den Modellen – einen gigantischen Preisunterschied von mehreren Größenordnungen. Und drittens, wie machen wir das auf eine Weise, die die Vertraulichkeit unserer Daten schützt?“

Die heutigen Produkteinführungen zielen darauf ab, die Mehrheit dieser Bedenken der Databricks-Kunden auszuräumen.

Zaharia bemerkte auch, dass die Unternehmen, die jetzt große Sprachmodelle (LLMs) in der Produktion einsetzen, Systeme mit mehreren Komponenten verwenden. Das bedeutet oft, dass sie ein Modell mehrfach aufrufen (oder vielleicht auch mehrere Modelle) und verschiedene externe Tools für den Zugriff auf Datenbanken oder die Retrieval Augmented Generation (RAG) verwenden. Diese zusammengesetzten Systeme beschleunigen LLM-basierte Anwendungen, sparen Geld, indem sie billigere Modelle für bestimmte Abfragen oder das Zwischenspeichern von Ergebnissen verwenden, und, was vielleicht am wichtigsten ist, machen die Ergebnisse vertrauenswürdiger und relevanter, indem sie die Basismodelle mit proprietären Daten erweitern.

„Wir glauben, dass dies die Zukunft wirklich wirkungsvoller, unternehmenskritischer KI-Anwendungen ist“, erklärte er. „Denn wenn man darüber nachdenkt: Wenn man etwas wirklich unternehmenskritisches macht, möchte man, dass die Ingenieure alle Aspekte davon kontrollieren können – und das erreicht man mit einem modularen System. Deshalb betreiben wir viel Grundlagenforschung darüber, wie man diese am besten erstellen kann. [systems] für eine bestimmte Aufgabe, damit Entwickler problemlos mit ihnen arbeiten und alle Teile anschließen, alles verfolgen und sehen können, was passiert.“

Um diese Systeme tatsächlich aufzubauen, bringt Databricks diese Woche zwei Dienste auf den Markt: das Mosaic AI Agent Framework und den Mosaic AI Tools Catalog. Das AI Agent Framework verwendet die serverlose Vektorsuchfunktion des Unternehmens, die letzten Monat allgemein verfügbar wurde, und bietet Entwicklern die Tools, um darauf aufbauend ihre eigenen RAG-basierten Anwendungen zu erstellen.

Ghodsi und Zaharia betonten, dass das Databricks-Vektorsuchsystem einen hybriden Ansatz verwendet, der die klassische schlüsselwortbasierte Suche mit der eingebetteten Suche kombiniert. All dies ist tief in den Databricks-Datensee integriert und die Daten auf beiden Plattformen werden immer automatisch synchronisiert. Dies umfasst die Governance-Funktionen der gesamten Databricks-Plattform – und insbesondere die Databricks Unity-Katalog Governance-Ebene – um beispielsweise sicherzustellen, dass keine persönlichen Daten in den Vektorsuchdienst gelangen.

Apropos Unity Catalog (den das Unternehmen nun auch langsam als Open Source zur Verfügung stellt): Es ist erwähnenswert, dass Databricks dieses System nun erweitert, damit Unternehmen steuern können, auf welche KI-Tools und -Funktionen diese LLMs bei der Generierung von Antworten zurückgreifen können. Dieser Katalog, so Databricks, wird diese Dienste auch unternehmensweit leichter auffindbar machen.

Ghodsi betonte auch, dass Entwickler nun alle diese Tools nutzen können, um ihre eigenen Agenten zu erstellen, indem sie Modelle und Funktionen miteinander verketten, indem sie Langchain oder LamaIndexzum Beispiel. Und tatsächlich erzählt mir Zaharia, dass viele Databricks-Kunden diese Tools bereits heute verwenden.

„Es gibt viele Unternehmen, die diese Dinge verwenden, sogar agentenähnliche Workflows. Ich glaube, die Leute sind oft überrascht, wie viele es davon gibt, aber das scheint die Richtung zu sein, in die sich die Dinge entwickeln. Und wir haben auch bei unseren internen KI-Anwendungen, wie den Assistenzanwendungen für unsere Plattform, festgestellt, dass dies der richtige Weg ist, sie zu erstellen“, sagte er.

Um diese neuen Anwendungen zu evaluieren, bringt Databricks auch die Mosaic AI Agent Evaluation auf den Markt, ein KI-gestütztes Evaluierungstool, das LLM-basierte Richter kombiniert, um zu testen, wie gut die KI in der Produktion funktioniert, es Unternehmen aber auch ermöglicht, schnell Feedback von Benutzern zu erhalten (und sie auch einige erste Datensätze beschriften zu lassen). Die Agent Evaluation enthält eine UI-Komponente basierend auf Databricks‘ Übernahme von Lilac Anfang des Jahres wurde es veröffentlicht, mit dem Benutzer riesige Textdatensätze visualisieren und durchsuchen können.

„Jeder unserer Kunden sagt: Ich muss intern einige Beschriftungen vornehmen, das werde ich einigen Mitarbeitern überlassen. Ich brauche vielleicht nur 100 oder 500 Antworten – und dann können wir diese an die LLM-Juroren weitergeben“, erklärte Ghodsi.

Eine weitere Möglichkeit, die Ergebnisse zu verbessern, ist die Verwendung fein abgestimmter Modelle. Zu diesem Zweck bietet Databricks jetzt den Service Mosaic AI Model Training an, der es seinen Benutzern – Sie ahnen es schon – ermöglicht, Modelle mit den privaten Daten ihrer Organisation zu optimieren, um ihnen zu helfen, bei bestimmten Aufgaben bessere Leistungen zu erbringen.

Das letzte neue Tool ist das Mosaic AI Gateway, das das Unternehmen als „einheitliche Schnittstelle zum Abfragen, Verwalten und Bereitstellen beliebiger Open-Source- oder proprietärer Modelle“ beschreibt. Die Idee dahinter ist, dass Benutzer mithilfe eines zentralen Anmeldeinformationsspeichers kontrolliert jedes LLM abfragen können. Schließlich möchte kein Unternehmen, dass seine Ingenieure beliebige Daten an Drittanbieterdienste senden.

In Zeiten schrumpfender Budgets ermöglicht das AI Gateway der IT außerdem, Ratenbegrenzungen für verschiedene Anbieter festzulegen, um die Kosten überschaubar zu halten. Darüber hinaus erhalten diese Unternehmen dann auch Nutzungsverfolgung und -verfolgung zum Debuggen dieser Systeme.

Wie Ghodsi mir sagte, sind all diese neuen Funktionen eine Reaktion darauf, wie Databricks-Benutzer jetzt mit LLMs arbeiten. „Wir haben in den letzten anderthalb Quartalen eine große Veränderung auf dem Markt erlebt. Anfang letzten Jahres sagte jeder, mit dem man sprach: Wir sind für Open Source, Open Source ist großartig. Aber wenn man die Leute wirklich drängte, verwendeten sie Open AI. Jeder, egal was sie sagten, egal wie sehr sie anpriesen, wie großartig Open Source ist, hinter den Kulissen verwendeten sie Open AI.“ Jetzt sind diese Kunden viel anspruchsvoller geworden und verwenden offene Modelle (natürlich sind nur sehr wenige wirklich Open Source), was wiederum erfordert, dass sie einen völlig neuen Satz von Tools übernehmen, um die damit verbundenen Probleme – und Chancen – zu bewältigen.

tch-1-tech