Kolenaein Startup, das Tools zum Testen, Benchmarking und Validieren der Leistung von KI-Modellen entwickelt, gab heute bekannt, dass es in einer von Lobby Capital angeführten Finanzierungsrunde unter Beteiligung von SignalFire und Bloomberg Beta 15 Millionen US-Dollar eingesammelt hat.
Mit den neuen Mitteln beläuft sich die Gesamteinnahme von Kolena auf 21 Millionen US-Dollar und wird in den Ausbau des Forschungsteams des Unternehmens, die Zusammenarbeit mit Regulierungsbehörden und die Ausweitung der Vertriebs- und Marketingbemühungen von Kolena fließen, sagte Mitbegründer und CEO Mohamed Elgendy gegenüber Tech in einem E-Mail-Interview.
„Die Anwendungsfälle für KI sind enorm, aber der KI mangelt es sowohl bei den Bauherren als auch bei der Öffentlichkeit an Vertrauen“, sagte Elgendy. „Diese Technologie muss so eingeführt werden, dass digitale Erlebnisse besser und nicht schlechter werden. Der Geist kehrt nicht in die Flasche zurück, aber als Branche können wir sicherstellen, dass wir die richtigen Wünsche äußern.“
Elgendy gründete Kolena im Jahr 2021 mit Andrew Shi und Gordon Hart, mit denen er etwa sechs Jahre lang in KI-Abteilungen von Unternehmen wie Amazon, Palantir, Rakuten und Synapse zusammengearbeitet hatte. Über Kolena wollte das Trio ein „Modellqualitäts-Framework“ aufbauen, das Unit-Tests und End-to-End-Tests für Modelle in einem anpassbaren, unternehmensfreundlichen Paket ermöglicht.
„In erster Linie wollten wir einen neuen Rahmen für die Modellqualität bereitstellen – nicht nur ein Tool, das aktuelle Ansätze vereinfacht“, sagte Elgendy. „Kolena ermöglicht die kontinuierliche Durchführung von Tests auf Szenarioebene oder Unit-Tests. Es ermöglicht außerdem End-to-End-Tests des gesamten KI- und Machine-Learning-Produkts, nicht nur von Unterkomponenten.“
Zu diesem Zweck kann Kolena Erkenntnisse liefern, um Lücken in der Datenabdeckung von KI-Modelltests zu identifizieren, sagt Elgendy. Und die Plattform enthält Risikomanagementfunktionen, die dabei helfen, Risiken zu verfolgen, die mit dem Einsatz eines bestimmten KI-Systems (oder mehrerer Systeme) verbunden sind. Mit der Benutzeroberfläche von Kolena können Benutzer Testfälle erstellen, um die Leistung eines Modells zu bewerten und mögliche Gründe für die Leistungsschwäche eines Modells zu erkennen, während sie seine Leistung mit verschiedenen anderen Modellen vergleichen.
„Mit Kolena können Teams Tests für bestimmte Szenarien verwalten und ausführen, mit denen das KI-Produkt umgehen muss, anstatt eine pauschale ‚aggregierte‘ Metrik wie einen Genauigkeitswert anzuwenden, der die Details der Leistung eines Modells verschleiern kann“, sagte Elgendy . „Zum Beispiel ist ein Modell mit einer Genauigkeit von 95 % bei der Erkennung von Autos nicht unbedingt besser als eines mit einer Genauigkeit von 89 %. Jedes hat seine eigenen Stärken und Schwächen – z. B. das Erkennen von Autos bei unterschiedlichen Wetterbedingungen oder Verdeckungsgraden, das Erkennen der Ausrichtung eines Autos usw.“
Wenn Kolena wie angekündigt funktioniert, könnte es tatsächlich für Datenwissenschaftler nützlich sein, die viel Zeit damit verbringen, Modelle für KI-Apps zu erstellen.
Laut einem UmfrageLaut eigenen Angaben widmen KI-Ingenieure nur 20 % ihrer Zeit der Analyse und Entwicklung von Modellen, der Rest entfällt auf die Beschaffung und Bereinigung der Daten, mit denen sie trainiert werden. Ein anderer Bericht stellt fest, dass aufgrund der Herausforderungen bei der Entwicklung präziser Leistungsmodelle letztendlich nur etwa 54 % der Modelle vom Pilotprojekt in die Produktion übergehen.
Aber es gibt auch andere Akteure, die Tools zum Testen, Überwachen und Validieren von Modellen entwickeln. Neben etablierten Unternehmen wie Amazon, Google und Microsoft testen zahlreiche Startups neuartige Ansätze zur Messung der Genauigkeit von Modellen vor und nach deren Produktionsaufnahme.
Prolific hat kürzlich 32 Millionen US-Dollar für seine Plattform gesammelt, um KI-Modelle mithilfe eines Crowdsourcing-Netzwerks von Testern zu trainieren und Stresstests zu unterziehen. Robust Intelligence und Deepchecks entwickeln unterdessen eigene Toolsets für Unternehmen, um das Versagen von KI-Modellen zu verhindern – und sie kontinuierlich zu validieren. Und Bobidi belohnt Entwickler für das Testen der KI-Modelle von Unternehmen.
Elgendy argumentiert jedoch, dass Kolenas Plattform eine der wenigen ist, die es Kunden ermöglicht, „vollständige Kontrolle“ über die Datentypen, die Bewertungslogik und andere Komponenten zu übernehmen, aus denen ein KI-Modelltest besteht. Er betont auch Kolenas Ansatz zum Datenschutz, der es den Kunden erspart, ihre Daten oder Modelle auf die Plattform hochzuladen; Kolena speichert Modelltestergebnisse nur für zukünftiges Benchmarking, die auf Anfrage gelöscht werden können.
„Die Minimierung des Risikos eines KI- und maschinellen Lernsystems erfordert strenge Tests vor der Bereitstellung, doch Unternehmen verfügen nicht über starke Tools oder Prozesse rund um die Modellvalidierung“, sagte Elgendy. Ad-hoc-Modelltests sind heutzutage die Norm, und leider auch fehlgeschlagene Proof-of-Concepts beim maschinellen Lernen. Kolena konzentriert sich auf eine umfassende und gründliche Modellbewertung. Wir bieten Machine-Learning-Managern, Produktmanagern und Führungskräften einen beispiellosen Einblick in die Testabdeckung eines Modells und die produktspezifischen Funktionsanforderungen, sodass sie die Produktqualität von Anfang an effektiv beeinflussen können.“
Das in San Francisco ansässige Unternehmen Kolena, das 28 Vollzeitmitarbeiter beschäftigt, möchte die Anzahl der Kunden, mit denen es derzeit zusammenarbeitet, nicht preisgeben. Elgendy sagte jedoch, dass das Unternehmen bei der Zusammenarbeit mit „geschäftskritischen“ Unternehmen vorerst einen „selektiven Ansatz“ verfolge und plant, im zweiten Quartal 2024 Teampakete für mittelständische Unternehmen und KI-Start-ups in der Frühphase einzuführen.