Warum Vektordatenbanken einen Moment Zeit haben, während der KI-Hype seinen Höhepunkt erreicht

Warum Vektordatenbanken einen Moment Zeit haben waehrend der KI Hype seinen

Vektordatenbanken sind Der letzte Schrei, gemessen an der Zahl der Start-ups, die den Raum betreten, und der Investoren, die für ein Stück vom Kuchen aufkommen. Die Verbreitung großer Sprachmodelle (LLMs) und die Bewegung der generativen KI (GenAI) haben einen fruchtbaren Boden für das Gedeihen von Vektordatenbanktechnologien geschaffen.

Während sich herkömmliche relationale Datenbanken wie Postgres oder MySQL gut für strukturierte Daten eignen – vordefinierte Datentypen, die übersichtlich in Zeilen und Spalten abgelegt werden können – funktioniert dies für unstrukturierte Daten wie Bilder, Videos, E-Mails und soziale Medien nicht so gut Beiträge und alle Daten, die keinem vordefinierten Datenmodell entsprechen.

Vektordatenbanken hingegen speichern und verarbeiten Daten in Form von Vektoreinbettungen, die Text, Dokumente, Bilder und andere Daten in numerische Darstellungen umwandeln, die die Bedeutung und Beziehungen zwischen den verschiedenen Datenpunkten erfassen. Dies ist perfekt für maschinelles Lernen, da die Datenbank Daten räumlich speichert, je nachdem, wie relevant die einzelnen Elemente füreinander sind, wodurch es einfacher wird, semantisch ähnliche Daten abzurufen.

Dies ist besonders nützlich für LLMs wie GPT-4 von OpenAI, da es dem KI-Chatbot ermöglicht, den Kontext einer Konversation besser zu verstehen, indem er frühere ähnliche Konversationen analysiert. Die Vektorsuche ist auch für alle Arten von Echtzeitanwendungen nützlich, beispielsweise für Inhaltsempfehlungen in sozialen Netzwerken oder E-Commerce-Apps, da sie sehen kann, wonach ein Benutzer gesucht hat, und ähnliche Elemente sofort abrufen kann.

Die Vektorsuche kann auch dazu beitragen, „Halluzinationen“ in LLM-Anwendungen zu reduzieren, indem sie zusätzliche Informationen bereitstellt, die im ursprünglichen Trainingsdatensatz möglicherweise nicht verfügbar waren.

„Ohne die Verwendung der Vektorähnlichkeitssuche können Sie immer noch KI/ML-Anwendungen entwickeln, aber Sie müssten mehr Umschulung und Feinabstimmung durchführen.“ Andre ZayarniCEO und Mitbegründer des Vektorsuch-Startups Qdrant, erklärte Tech. „Vektordatenbanken kommen ins Spiel, wenn es einen großen Datensatz gibt und Sie ein Tool benötigen, um effizient und bequem mit Vektoreinbettungen zu arbeiten.“

Im Januar sicherte sich Qdrant eine Finanzierung in Höhe von 28 Millionen US-Dollar, um vom Wachstum zu profitieren, das es im vergangenen Jahr zu einem der zehn am schnellsten wachsenden kommerziellen Open-Source-Startups gemacht hat. Und es ist bei weitem nicht das einzige Vektordatenbank-Startup, das in letzter Zeit Geld gesammelt hat – Vespa, WebenTannenzapfen und Chroma haben letztes Jahr gemeinsam 200 Millionen US-Dollar für verschiedene Vektorangebote gesammelt.

Qdrant-Gründerteam. Bildnachweise: Qdrant

Seit dem Jahreswechsel haben wir auch Index Ventures gesehen Führen Sie eine Startrunde im Wert von 9,5 Millionen US-Dollar an hinein Superlinked, eine Plattform, die komplexe Daten in Vektoreinbettungen umwandelt. Und vor ein paar Wochen stellte Y Combinator (YC) seine Winter ’24-Kohorte vor, darunter: Laterneein Startup, das eine gehostete Vektorsuchmaschine für Postgres verkauft.

Anderswo, Marquo Ende letzten Jahres sammelte das Unternehmen eine Seed-Runde in Höhe von 4,4 Millionen US-Dollar, kurz darauf folgte eine Serie-A-Runde im Wert von 12,5 Millionen US-Dollar im Februar. Die Marqo-Plattform bietet eine vollständige Palette sofort einsatzbereiter Vektortools, die die Generierung, Speicherung und den Abruf von Vektoren umfassen und es Benutzern ermöglichen, Tools von Drittanbietern wie OpenAI oder Hugging Face zu umgehen, und sie bietet alles über eine einzige API.

Mitbegründer von Marqo Tom Hamer Und Jesse N. Clark Zuvor arbeitete er in technischen Funktionen bei Amazonas, wo sie den „großen ungedeckten Bedarf“ an semantischer, flexibler Suche über verschiedene Modalitäten wie Text und Bilder hinweg erkannten. Und dann sprangen sie vom Schiff und gründeten im Jahr 2021 Marqo.

„Bei der Arbeit mit visueller Suche und Robotik bei Amazon habe ich mich wirklich mit der Vektorsuche beschäftigt – ich habe über neue Wege zur Produkterkennung nachgedacht, und das hat mich sehr schnell zur Vektorsuche geführt“, sagte Clark gegenüber Tech. „In der Robotik habe ich die multimodale Suche verwendet, um viele unserer Bilder zu durchsuchen, um festzustellen, ob es fehlerhafte Dinge wie Schläuche und Pakete gab. Ansonsten wäre es sehr schwierig, dieses Problem zu lösen.“

Mitbegründer von Marqo

Marqo-Mitbegründer Jesse Clark und Tom Hamer. Bildnachweise: Marquo

Betreten Sie das Unternehmen

Während Vektordatenbanken inmitten des Trubels von ChatGPT und der GenAI-Bewegung eine Momentaufnahme haben, sind sie nicht das Allheilmittel für jedes Unternehmenssuchszenario.

„Dedizierte Datenbanken sind in der Regel vollständig auf bestimmte Anwendungsfälle ausgerichtet und können daher ihre Architektur im Hinblick auf Leistung bei den erforderlichen Aufgaben sowie Benutzererfahrung gestalten, im Vergleich zu Allzweckdatenbanken, die in das aktuelle Design passen müssen.“ Peter ZaitsevGründer des Datenbank-Support- und Dienstleistungsunternehmens Percona, erklärte gegenüber Tech.

Auch wenn spezialisierte Datenbanken in einer Sache überragend sein können und andere ausschließen, ist dies der Grund, warum wir beginnen, dies zu erkennen Datenbankbetreiber wie zum Beispiel Elastisch, Redis, OpenSearch, Kassandra, OrakelUnd MongoDB Hinzufügen von intelligenten Funktionen für die Suche nach Vektordatenbanken sowie Cloud-Dienstanbietern Microsofts Azure, Amazons AWSUnd Wolkenflare.

Zaitsev vergleicht diesen neuesten Trend mit dem, was passiert ist JSON Vor mehr als einem Jahrzehnt, als Web-Apps immer beliebter wurden und Entwickler ein sprachunabhängiges Datenformat benötigten, das für Menschen leicht zu lesen und zu schreiben war. In diesem Fall entstand eine neue Datenbankklasse in Form von Dokumentendatenbanken wie MongoDB, aber auch bestehende relationale Datenbanken Einführung der JSON-Unterstützung.

„Ich denke, dass das Gleiche wahrscheinlich auch bei Vektordatenbanken passieren wird“, sagte Zaitsev gegenüber Tech. „Benutzer, die sehr komplizierte und umfangreiche KI-Anwendungen erstellen, werden dedizierte Vektorsuchdatenbanken verwenden, während Leute, die ein wenig KI-Funktionalität für ihre bestehende Anwendung erstellen müssen, eher die Vektorsuchfunktionalität in den Datenbanken verwenden, die sie bereits verwenden.“ ”

Aber Zayarni und seine Qdrant-Kollegen wetten darauf, dass native Lösungen, die vollständig auf Vektoren basieren, die „Geschwindigkeit, Speichersicherheit und Skalierbarkeit“ bieten werden, die angesichts der explosionsartigen Zunahme der Vektordaten erforderlich sind, im Vergleich zu den Unternehmen, die die Vektorsuche nachträglich einführen.

„Ihr Vorschlag lautet: ‚Wir können bei Bedarf auch eine Vektorsuche durchführen‘“, sagte Zayarni. „Unser Pitch lautet: ‚Wir führen die erweiterte Vektorsuche auf die bestmögliche Weise durch.‘ Es geht um Spezialisierung. Wir empfehlen tatsächlich, mit der Datenbank zu beginnen, die Sie bereits in Ihrem Tech-Stack haben. Irgendwann werden Benutzer mit Einschränkungen konfrontiert sein, wenn die Vektorsuche eine entscheidende Komponente Ihrer Lösung ist.“

tch-1-tech