LanceDB, das Midjourney zu seinen Kunden zählt, baut Datenbanken für multimodale KI auf

Chang She, zuvor VP of Engineering bei Tubi und Cloudera-Veteran, verfügt über jahrelange Erfahrung im Aufbau von Datentools und Infrastruktur. Doch als She begann, im KI-Bereich zu arbeiten, stieß er schnell auf Probleme mit der traditionellen Dateninfrastruktur – Probleme, die ihn daran hinderten, KI-Modelle in die Produktion zu bringen.

„Ingenieure für maschinelles Lernen und KI-Forscher haben oft eine unterdurchschnittliche Entwicklungserfahrung“, sagte sie in einem Interview mit Tech. „Dateninfrastrukturunternehmen verstehen das Problem der maschinellen Lerndaten auf einer grundsätzlichen Ebene nicht wirklich.“

Also tat sich Chang – einer der Mitschöpfer von Pandas, der äußerst beliebten Python-Datenwissenschaftsbibliothek – mit dem Softwareentwickler Lei Xu zusammen, um gemeinsam zu starten LanceDB.

LanceDB entwickelt die gleichnamige Open-Source-Datenbanksoftware LanceDB, die multimodale KI-Modelle unterstützen soll – Modelle, die neben Text auch Bilder, Videos und mehr trainieren und diese generieren. Mit Unterstützung von Y Combinator hat LanceDB diesen Monat in einer von CRV, Essence VC und Swift Ventures angeführten Seed-Finanzierungsrunde 8 Millionen US-Dollar eingesammelt, sodass sich die Gesamteinnahme auf 11 Millionen US-Dollar beläuft.

„Wenn multimodale KI für den zukünftigen Erfolg Ihres Unternehmens von entscheidender Bedeutung ist, möchten Sie, dass sich Ihr sehr teures KI-Team auf das Modell und die Verbindung der KI mit dem Geschäftswert konzentriert“, sagte Chang. „Leider verbringen KI-Teams heute die meiste Zeit damit, sich mit Details der Dateninfrastruktur auf niedriger Ebene zu befassen. LanceDB bietet die Grundlage, die KI-Teams benötigen, damit sie sich auf das konzentrieren können, was für den Unternehmenswert wirklich wichtig ist, und KI-Produkte viel schneller als sonst möglich auf den Markt bringen können.“

LanceDB ist im Wesentlichen eine Vektordatenbank – eine Datenbank mit Zahlenreihen („Vektoren“), die die Bedeutung unstrukturierter Daten (z. B. Bilder, Text usw.) kodieren.

Wie mein Kollege Paul Sawers kürzlich schrieb, haben Vektordatenbanken einen Moment Zeit, da der KI-Hype seinen Höhepunkt erreicht. Das liegt daran, dass sie für alle Arten von KI-Anwendungen nützlich sind, von Inhaltsempfehlungen in E-Commerce- und Social-Media-Plattformen bis hin zur Reduzierung von Halluzinationen.

Der Wettbewerb um Vektordatenbanken ist hart – siehe Qdrant, Vespa, Weaviate, Pinecone und Chroma, um nur einige Anbieter zu nennen (die etablierten Big-Tech-Unternehmen nicht mitgerechnet). Was macht LanceDB also einzigartig? Laut Chang mehr Flexibilität, Leistung und Skalierbarkeit.

Zum einen, sagt Chang, LanceDB – das darauf aufbaut Apache-Pfeil – basiert auf einem benutzerdefinierten Datenformat, dem Lance-Format, das für multimodales KI-Training und -Analyse optimiert ist. Das Lance-Format ermöglicht es LanceDB, bis zu Milliarden von Vektoren und Petabytes an Text, Bildern und Videos zu verarbeiten und Ingenieuren die Verwaltung verschiedener Formen von Metadaten zu ermöglichen, die mit diesen Daten verknüpft sind.

„Bisher gab es noch nie ein System, das Training, Erkundung, Suche und groß angelegte Datenverarbeitung vereinen kann“, sagte Chang. „Lance Format ermöglicht KI-Forschern und -Ingenieuren eine einzige Informationsquelle und eine blitzschnelle Leistung in ihrer gesamten KI-Pipeline. Es geht nicht nur um die Speicherung von Vektoren.“

LanceDB verdient Geld durch den Verkauf vollständig verwalteter Versionen seiner Open-Source-Software mit zusätzlichen Funktionen wie Hardwarebeschleunigung und Governance-Kontrollen – und das Geschäft scheint gut zu laufen. Zu den Kunden des Unternehmens gehören die Text-to-Image-Plattform Midjourney, der Chatbot Unicorn Character.ai, das autonome Auto-Startup WeRide und Airtable.

Chang bestand jedoch darauf, dass die jüngste VC-Unterstützung von LanceDB seine Aufmerksamkeit nicht vom Open-Source-Projekt ablenken würde, das seiner Meinung nach mittlerweile rund 600.000 Downloads pro Monat verzeichnet.

„Wir wollten etwas schaffen, das es KI-Teams zehnmal einfacher macht, mit großen multimodalen Daten zu arbeiten“, sagte er. „LanceDB bietet – und wird dies auch weiterhin tun – ein sehr umfangreiches Angebot an Ökosystemintegrationen, um den Einführungsaufwand zu minimieren.“

tch-1-tech