Was haben KI-Sprachagenten und selbstfahrende Autos gemeinsam? Ihre Leistung könne auf die gleiche Weise bewertet werden, argumentiert Brooke Hopkins, eine ehemalige technische Leiterin bei Waymo. Coval, das neue Startup von Hopkins, will genau das erreichen.
„Als ich Waymo verließ, wurde mir klar, dass viele dieser Probleme, die wir bei Waymo hatten, genau das waren, mit dem der Rest der KI-Branche konfrontiert war“, sagte Hopkins (Bild oben in der Mitte) gegenüber Tech. „Aber alle sagten, dies sei ein neues Paradigma, wir müssten Testpraktiken auf der Grundlage erster Prinzipien entwickeln und im Grunde müssten wir alle alles neu erschaffen. Und ich schaute mir das an und sagte: „Moment, wir haben die letzten 10 Jahre damit verbracht, selbst zu fahren und herauszufinden, wie das geht.“
Im Jahr 2024 entschied sie sich für den Start Covaleine Plattform, die Simulationen für KI-Sprach- und Chat-Agenten erstellt, die testet und bewertet, wie sie Aufgaben ausführen, auf die gleiche Weise, wie Hopkins selbstfahrende Autos bei Waymo getestet hat. Coval kann Tausende von Simulationen gleichzeitig ausführen, z. B. den Agenten eine Restaurantreservierung vornehmen lassen oder den Agenten auf indirekte Weise auf eine Kundendienstfrage antworten lassen.
Die Technologie von Coval bewertet die Agenten anhand eines allgemeinen Satzes von Metriken, aber Unternehmen können auch anpassen, wonach sie suchen, und Coval verwenden, um weiterhin Regressionen zu bewerten. Benutzer können diese Daten und die daraus gewonnenen Erkenntnisse auch nutzen und sie ihren Endkunden zur Verfügung stellen, entweder für eine Demo oder als Überwachungstool, um ihren Kunden zu zeigen, dass der Agent wie vorgesehen funktioniert.
„Eines der größten Hindernisse für die Einführung von Agenten durch Unternehmen ist ihr Vertrauen, dass dies nicht nur eine Demo mit Schall und Schall ist“, sagte Hopkins. „Die Wahl zwischen Anbietern ist für diese Führungskräfte eine wirklich komplizierte Aufgabe, denn es ist einfach sehr schwer zu wissen, was man überhaupt verlangt oder wie man überhaupt beweisen kann, dass diese Agenten das tun, was man erwartet. Und das gibt unseren Unternehmen die Möglichkeit, dies wirklich zu zeigen und zu demonstrieren.“
Hopkins hat die Idee hinter Coval während des Y Combinator Summer 2024-Batches wirklich formuliert, bevor er das Produkt im Oktober 2024 öffentlich auf den Markt brachte. Sie sagte, dass die Nachfrage stark gewesen sei und in den letzten zwei Monaten explosionsartig zugenommen habe, da Kunden gefragt hätten, wie schnell sie ihre Agenten bekommen könnten ausgewertet.
Das in San Francisco ansässige Startup kündigt nun eine 3,3-Millionen-Dollar-Seed-Runde unter der Leitung von MaC Venture Capital unter Beteiligung von Y Combinator und General Catalyst an. Das Startup wird das Kapital nutzen, um sein Engineering-Team auszubauen und daran zu arbeiten, die Produktmarkttauglichkeit zu erreichen. Hopkins fügte hinzu, dass das Unternehmen auch daran arbeiten werde, seinen Nutzern in Zukunft die Evaluierung anderer Arten von KI-Agenten, etwa webbasierter Agenten, zu ermöglichen.
Coval betritt die Szene, während sowohl die Dynamik – als auch der Hype – um KI-Agenten auf einem Allzeithoch zu sein scheint. Technologieführer in Unternehmen wie Marc Benioff loben (und vermarkten) die Technologie, indem sie sagen, dass Salesforce bis zum nächsten Jahr mehr als eine Milliarde seiner KI-Agenten einsetzen wird. Es wird gemunkelt, dass OpenAI sehr bald seine Version eines KI-Agenten veröffentlichen wird.
Es gibt auch zahlreiche Startups, die in diesem Bereich entstehen. Allein in den drei Kohorten von Y Combinator im Jahr 2024 gab es mehr als 100 Startups, die KI-Agenten entwickelten. Einige KI-Agent-Startups haben ebenfalls beträchtliche Risikofinanzierungsrunden abgeschlossen. Eines davon, /dev/agents, hat im November 2024, weniger als ein Jahr nach seiner Gründung, eine Seed-Runde in Höhe von 55 Millionen US-Dollar mit einer Bewertung von 500 Millionen US-Dollar aufgenommen.
Diese Dynamik bedeutet, dass es wahrscheinlich auch mehr Unternehmen geben wird, die Hilfe bei der Bewertung ihrer Agenten suchen. Hopkins sagte, Coval habe gute Chancen, sich von der Masse abzuheben, da Coval im Gegensatz zu den unvermeidlichen Neuzugängen einen Vorsprung habe.
„Ich denke, was uns wirklich auszeichnet, ist, dass ich seit einem halben Jahrzehnt in diesem Bereich arbeite und diese Systeme immer wieder gebaut habe“, sagte sie. „Wir haben mehrere Iterationen erstellt und gesehen, wie sie scheitern und wie sie sich skalieren lassen. Wir bauen die gleichen Konzepte in Coval und all diese Erkenntnisse ein.“