Unstructured, das Tools zur Vorbereitung von Unternehmensdaten für LLMs anbietet, bringt 25 Millionen US-Dollar ein

Große Sprachmodelle (LLMs) wie GPT-4 von OpenAI sind die Bausteine ​​für immer mehr KI-Anwendungen. Einige Unternehmen zögern jedoch, sie einzuführen, da sie nicht auf eigene und proprietäre Daten zugreifen können.

Es ist nicht unbedingt ein leicht zu lösendes Problem – wenn man bedenkt, dass diese Art von Daten in der Regel hinter Firewalls gespeichert werden und in Formaten vorliegen, die von LLMs nicht abgerufen werden können. Aber ein relativ neues Startup, Unstrukturiert.ioversucht, die Hindernisse mit einer Plattform zu beseitigen, die Unternehmensdaten auf eine Weise extrahiert und bereitstellt, die LLMs verstehen und nutzen können.

Brian Raymond, Matt Robinson und Crag Wolfe gründeten Unstructured im Jahr 2022, nachdem sie bei Primer AI zusammengearbeitet hatten, das sich auf die Entwicklung und Bereitstellung von Lösungen zur Verarbeitung natürlicher Sprache (NLP) für Geschäftskunden konzentrierte.

„Bei Primer stießen wir immer wieder auf einen Engpass bei der Aufnahme und Vorverarbeitung von Rohkundendateien mit NLP-Daten (z. B. PDFs, E-Mails, PPTX, XML usw.) und deren Umwandlung in eine saubere, kuratierte Datei, die bereit ist ein Modell oder eine Pipeline für maschinelles Lernen“, sagte Raymond, der als CEO von Unstructured fungiert, gegenüber Tech in einem E-Mail-Interview. „Keines der Datenintegrations- oder intelligenten Dokumentenverarbeitungsunternehmen half, dieses Problem zu lösen, also beschlossen wir, ein Unternehmen zu gründen und es direkt anzugehen.“

Tatsächlich ist die Datenverarbeitung und -vorbereitung in der Regel ein zeitaufwändiger Schritt in jedem KI-Entwicklungsworkflow. Laut einem UmfrageDatenwissenschaftler verbringen fast 80 % ihrer Zeit damit, Daten für die Analyse vorzubereiten und zu verwalten. Infolgedessen die meisten Datenunternehmen produzieren – etwa zwei Drittel – bleiben ungenutzt Umfrage.

„Organisationen erzeugen täglich große Mengen unstrukturierter Daten, die in Kombination mit LLMs die Produktivität steigern können. Das Problem ist, dass diese Daten verstreut sind“, fuhr Raymond fort. „Das schmutzige Geheimnis in der NLP-Community ist, dass Datenwissenschaftler auch heute noch handwerkliche, einmalige Datenkonnektoren und Vorverarbeitungspipelines vollständig manuell erstellen müssen. Unstrukturiert [delivers] eine umfassende Lösung zum Verbinden, Transformieren und Bereitstellen natürlichsprachlicher Daten für LLMs.“

Unstructured bietet eine Reihe von Tools zur Bereinigung und Transformation von Unternehmensdaten für die LLM-Aufnahme, darunter Tools zum Entfernen von Anzeigen und anderen unerwünschten Objekten von Webseiten, zum Verketten von Text, zum Durchführen einer optischen Zeichenerkennung auf gescannten Seiten und mehr. Das Unternehmen entwickelt Verarbeitungspipelines für bestimmte Arten von PDFs; HTML- und Word-Dokumente, auch für SEC-Einreichungen; und – ausgerechnet – Bewertungsberichte von Offizieren der US-Armee.

Für den Umgang mit Dokumenten trainierte Unstructured sein eigenes „Dateitransformations“-NLP-Modell von Grund auf und stellte eine Sammlung anderer Modelle zusammen, um Text und etwa 20 diskrete Elemente (z. B. Titel, Kopf- und Fußzeilen) aus Rohdateien zu extrahieren. Verschiedene Konnektoren – insgesamt etwa 15 – beziehen Dokumente aus vorhandenen Datenquellen ein, beispielsweise aus Software für das Kundenbeziehungsmanagement.

„Hinter den Kulissen nutzen wir verschiedene Technologien, um die Komplexität zu abstrahieren“, sagte Raymond. „Für alte PDFs und Bilder verwenden wir beispielsweise Computer-Vision-Modelle. Und für andere Dateitypen verwenden wir clevere Kombinationen aus NLP-Modellen, Python-Skripten und regulären Ausdrücken.“

Nachgelagert lässt sich Unstructured in Anbieter wie LangChain integrieren, ein Framework zum Erstellen von LLM-Apps. und Vektordatenbanken wie Weaviate und MongoDBs Atlas Vector Search.

Bisher war das einzige Produkt von Unstructured eine Open-Source-Suite dieser Datenverarbeitungstools. Raymond gibt an, dass es rund 700.000 Mal heruntergeladen und von über 100 Unternehmen verwendet wurde. Aber um die Entwicklungskosten zu decken – und zweifellos seine Investoren zu beruhigen – führt das Unternehmen eine kommerzielle API ein, die Daten in 25 verschiedene Dateiformate umwandelt, darunter PowerPoints und JPGs.

„Wir haben mit Regierungsbehörden zusammengearbeitet und innerhalb kürzester Zeit mehrere Millionen Einnahmen erzielt. . . . Da unser Fokus auf KI liegt, konzentrieren wir uns auf einen Marktsektor, der nicht von der allgemeinen Konjunkturabschwächung betroffen ist“, sagte Raymond.

Unstructured hat ungewöhnlich enge Verbindungen zu Verteidigungsbehörden, was möglicherweise auf Raymonds Hintergrund zurückzuführen ist. Vor Primer war er ein aktives Mitglied der US-Geheimdienstgemeinschaft, diente im Nahen Osten und dann im Weißen Haus während der Obama-Regierung, bevor er bei der CIA arbeitete.

Unstructured erhielt Kleinunternehmensaufträge von der US Air Force und der US Space Force und arbeitete mit dem US Special Operations Command (SOCOM) zusammen, um ein LLM „in Verbindung mit missionsrelevanten Daten“ einzusetzen. Darüber hinaus gehören dem Vorstand von Unstructured Michael Groen, ein ehemaliger General und Direktor des Joint Artificial Intelligence Center des Pentagon, und Ryan Lewis an, der zuvor die Defence Innovation Unit des Verteidigungsministeriums leitete.

Der Verteidigungsaspekt – eine zuverlässige frühe Einnahmequelle – könnte der entscheidende Faktor bei der jüngsten Finanzierung von Unstructured gewesen sein. Heute gab das Unternehmen bekannt, dass es im Rahmen einer Serie-A-Finanzierungsrunde und einer zuvor nicht veröffentlichten Seed-Finanzierungsrunde 25 Millionen US-Dollar eingesammelt hat. Madrona leitete die Serie A unter Beteiligung von Bain Capital Ventures, das den Seed leitete, und M12 Ventures, Mango Capital, MongoDB Ventures und Shield Capital sowie mehreren Angel-Investoren.

tch-1-tech