KI-Agenten gelten als der nächste große Wurf in der KI, aber es gibt keine genaue Definition davon, was sie sind. Bislang kann man sich nicht darauf einigen, was genau einen KI-Agenten ausmacht.
Vereinfacht ausgedrückt lässt sich ein KI-Agent am besten als KI-gestützte Software beschreiben, die eine Reihe von Aufgaben für Sie erledigt, die früher vielleicht ein menschlicher Kundendienstmitarbeiter, ein Mitarbeiter aus der Personalabteilung oder ein Mitarbeiter des IT-Helpdesks erledigt hat, obwohl es letztlich jede beliebige Aufgabe sein könnte. Sie fordern ihn auf, Dinge zu tun, und er erledigt sie für Sie, manchmal über mehrere Systeme hinweg und weit über das bloße Beantworten von Fragen hinaus.
Scheint ganz einfach, oder? Doch es wird durch mangelnde Klarheit kompliziert. Selbst unter den Technologiegiganten herrscht kein Konsens. Google betrachtet sie als aufgabenbasierte Assistenten, die je nach Aufgabe unterschiedlich sind: Programmierhilfe für Entwickler; Unterstützung von Marketingfachleuten bei der Erstellung eines Farbschemas; Unterstützung eines IT-Experten bei der Suche nach einem Problem durch Abfragen von Protokolldaten.
Bei Asana kann ein Agent wie ein zusätzlicher Mitarbeiter agieren und sich wie jeder gute Kollege um die ihm zugewiesenen Aufgaben kümmern. Sierra, ein Startup, das vom ehemaligen Salesforce-Co-CEO Bret Taylor und Google-Veteran Clay Bavor gegründet wurde, betrachtet Agenten als Tools für das Kundenerlebnis, die Menschen dabei helfen, Aktionen auszuführen, die weit über die Chatbots von gestern hinausgehen und dabei helfen, komplexere Probleme zu lösen.
Das Fehlen einer einheitlichen Definition lässt tatsächlich Raum für Verwirrung darüber, was diese Dinge genau tun sollen. Doch egal, wie sie definiert werden, die Agenten sollen dabei helfen, Aufgaben automatisiert und mit so wenig menschlicher Interaktion wie möglich zu erledigen.
Rudina Seseri, Gründerin und geschäftsführende Gesellschafterin von Glasswing Ventures, sagt, es sei noch zu früh und das könne der Grund für die fehlende Einigung sein. „Es gibt keine einheitliche Definition eines ‚KI-Agenten‘. Die häufigste Ansicht ist jedoch, dass ein Agent ein intelligentes Softwaresystem ist, das seine Umgebung wahrnimmt, darüber nachdenkt, Entscheidungen trifft und Maßnahmen ergreift, um autonom bestimmte Ziele zu erreichen“, sagte Seseri gegenüber Tech.
Sie sagt, dass sie eine Reihe von KI-Technologien einsetzen, um dies zu erreichen. „Diese Systeme integrieren verschiedene KI/ML-Techniken wie natürliche Sprachverarbeitung, maschinelles Lernen und Computervision, um in dynamischen Bereichen autonom oder zusammen mit anderen Agenten und menschlichen Benutzern zu arbeiten.“
Aaron Levie, Mitbegründer und CEO von Box, sagt, dass KI-Agenten mit der Zeit, wenn die Leistungsfähigkeit der KI zunimmt, viel mehr für die Menschen tun können. Und es gibt bereits Dynamiken, die diese Entwicklung vorantreiben werden.
„Bei KI-Agenten gibt es mehrere Komponenten eines sich selbst verstärkenden Schwungrads, die dazu beitragen werden, die Leistungsfähigkeit von KI-Agenten kurz- und langfristig dramatisch zu verbessern: GPU-Preis/Leistung, Modell-Effizienz, Modellqualität und -intelligenz, KI-Frameworks und Infrastrukturverbesserungen“, schrieb Levie. Auf Linkedin kürzlich.
Das ist eine optimistische Sicht auf die Technologie, die davon ausgeht, dass in all diesen Bereichen Wachstum stattfinden wird, obwohl das nicht unbedingt eine Selbstverständlichkeit ist. Der Robotikpionier des MIT, Rodney Brooks, wies in einem kürzlichen Tech-Interview darauf hin, dass die KI mit viel schwierigeren Problemen zu kämpfen hat als die meisten anderen Technologien und dass sie nicht unbedingt so schnell wachsen wird wie beispielsweise Chips nach dem Mooreschen Gesetz.
„Wenn ein Mensch sieht, wie ein KI-System eine Aufgabe ausführt, verallgemeinert er dies sofort auf ähnliche Dinge und schätzt die Kompetenz des KI-Systems ein; nicht nur die Leistung in dieser Hinsicht, sondern auch die Kompetenz in diesem Bereich“, sagte Brooks in diesem Interview. „Und sie sind normalerweise sehr überoptimistisch, und das liegt daran, dass sie ein Modell der Leistung einer Person bei einer Aufgabe verwenden.“
Das Problem ist, dass das Überkreuzen von Systemen schwierig ist. Dies wird noch dadurch verkompliziert, dass einigen Altsystemen grundlegender API-Zugriff fehlt. Obwohl wir die stetigen Verbesserungen sehen, auf die Levie anspielte, könnte es sich als schwieriger erweisen, Software auf mehrere Systeme zugreifen zu lassen und dabei auftretende Probleme zu lösen, als viele denken.
Wenn das der Fall ist, überschätzen alle möglicherweise, was KI-Agenten leisten können. David Cushman, Forschungsleiter bei HFS Research, sieht die aktuelle Generation von Bots eher wie Asana: Assistenten, die Menschen dabei helfen, bestimmte Aufgaben zu erledigen, um ein benutzerdefiniertes strategisches Ziel zu erreichen. Die Herausforderung besteht darin, einer Maschine dabei zu helfen, Eventualitäten wirklich automatisiert zu bewältigen, und davon sind wir offensichtlich noch weit entfernt.
„Ich denke, das ist der nächste Schritt“, sagte er. „Hier arbeitet KI unabhängig und effektiv im großen Maßstab. Hier legen also Menschen die Richtlinien und Leitplanken fest und wenden mehrere Technologien an, um den Menschen aus dem Spiel zu nehmen – obwohl es bisher nur darum ging, den Menschen in Schach zu halten. In die Schleife mit GenAI“, sagte er. Der Schlüssel liege hier darin, den KI-Agenten übernehmen zu lassen und echte Automatisierung anzuwenden.
Jon Turow, Partner bei Madrona Ventures, sagt, dass dies die Schaffung einer KI-Agenten-Infrastruktur erfordern wird, eines Technologie-Stacks, der speziell für die Erstellung der Agenten (wie auch immer Sie sie definieren) entwickelt wurde. In einem kürzlich erschienenen Blogbeitrag schreibt Turow skizzierte Beispiele für KI-Agenten derzeit in freier Wildbahn funktionieren und wie sie heute gebaut werden.
Turow ist der Ansicht, dass die zunehmende Verbreitung von KI-Agenten – und er gibt auch zu, dass die Definition noch etwas schwer zu fassen ist – einen Tech-Stack wie jede andere Technologie erfordert. „All dies bedeutet, dass unsere Branche Arbeit leisten muss, um eine Infrastruktur aufzubauen, die KI-Agenten und die auf sie angewiesenen Anwendungen unterstützt“, schrieb er in dem Artikel.
„Mit der Zeit wird sich das Denken allmählich verbessern, Pioniermodelle werden immer mehr Arbeitsabläufe steuern und Entwickler werden sich auf Produkte und Daten konzentrieren wollen – die Dinge, die sie von anderen unterscheiden. Sie wollen, dass die zugrunde liegende Plattform ‚einfach funktioniert‘ und Skalierbarkeit, Leistung und Zuverlässigkeit bietet.“
Ein weiterer Punkt, den man hier im Hinterkopf behalten sollte, ist, dass man wahrscheinlich mehrere Modelle und nicht nur ein einziges LLM braucht, um Agenten zum Laufen zu bringen, und das ist verständlich, wenn man sich diese Agenten als eine Sammlung verschiedener Aufgaben vorstellt. „Ich glaube nicht, dass derzeit irgendein einzelnes großes Sprachmodell, zumindest kein öffentlich verfügbares, monolithisches großes Sprachmodell, in der Lage ist, agentenbezogene Aufgaben zu bewältigen. Ich glaube nicht, dass sie schon die mehrstufige Argumentation durchführen können, die mich an einer agentenbezogenen Zukunft wirklich begeistern würde. Ich denke, wir kommen näher, aber so weit sind wir noch nicht“, sagte Fred Havemeyer, Leiter der US-amerikanischen KI- und Softwareforschung bei Macquarie US Equity Research.
„Ich denke, die effektivsten Agenten werden wahrscheinlich mehrere Sammlungen mehrerer verschiedener Modelle mit einer Routing-Schicht sein, die Anfragen oder Eingabeaufforderungen an den effektivsten Agenten und das effektivste Modell sendet. Und ich denke, es wäre eine interessante [automated] Vorgesetzter, delegierende Art von Rolle.“
Letztendlich arbeitet die Branche laut Havemeyer auf das Ziel hin, dass Agenten unabhängig voneinander agieren. „Wenn ich über die Zukunft von Agenten nachdenke, möchte ich Agenten sehen, die wirklich autonom sind und abstrakte Ziele verfolgen und dann alle einzelnen Schritte dazwischen völlig unabhängig durchdenken können, und das hoffe ich auch“, sagte er gegenüber Tech.
Tatsächlich befinden wir uns jedoch noch immer in einer Übergangsphase, was diese Agenten betrifft, und wir wissen nicht, wann wir diesen von Havemeyer beschriebenen Endzustand erreichen werden. Obwohl das, was wir bisher gesehen haben, eindeutig ein vielversprechender Schritt in die richtige Richtung ist, benötigen wir noch einige Fortschritte und Durchbrüche, damit KI-Agenten so funktionieren, wie sie heute vorgesehen sind. Und es ist wichtig zu verstehen, dass wir noch nicht so weit sind.