Was genau ist ein KI-Agent?

KI-Agenten sollen das nächste große Ding in der KI sein, es gibt jedoch keine genaue Definition dessen, was sie sind. Bisher kann man sich nicht darüber einig werden, was genau einen KI-Agenten ausmacht.

Im einfachsten Fall lässt sich ein KI-Agent am besten als KI-gestützte Software beschreiben, die eine Reihe von Aufgaben für Sie erledigt, die ein menschlicher Kundendienstmitarbeiter, ein HR-Mitarbeiter oder ein IT-Helpdesk-Mitarbeiter in der Vergangenheit möglicherweise erledigt hätte, obwohl es sich letztendlich um alle möglichen Aufgaben handeln könnte Aufgabe. Sie bitten es, Dinge zu tun, und es erledigt diese für Sie, manchmal über mehrere Systeme hinweg und geht weit über die einfache Beantwortung von Fragen hinaus. Perplexity hat beispielsweise letzten Monat einen KI-Agenten veröffentlicht, der Menschen bei ihren Weihnachtseinkäufen unterstützt (und das ist nicht der einzige). Und Google hat letzte Woche seinen ersten KI-Agenten namens Project Mariner angekündigt, mit dem Flüge und Hotels gefunden, Haushaltsgegenstände eingekauft, Rezepte gefunden und andere Aufgaben erledigt werden können.

Scheint einfach zu sein, oder? Dennoch wird es durch mangelnde Klarheit erschwert. Selbst unter den Technologiegiganten herrscht kein Konsens. Google sieht sie je nach Aufgabe als aufgabenbasierte Assistenten: Codierungshilfe für Entwickler; Unterstützung von Vermarktern bei der Erstellung eines Farbschemas; Unterstützung eines IT-Experten beim Aufspüren eines Problems durch Abfragen von Protokolldaten.

Für Asana kann ein Agent wie ein zusätzlicher Mitarbeiter agieren und sich wie jeder gute Kollege um zugewiesene Aufgaben kümmern. Sierra, ein Startup, das vom ehemaligen Salesforce-Co-CEO Bret Taylor und dem Google-Veteranen Clay Bavor gegründet wurde, sieht Agenten als Tools für das Kundenerlebnis, die Menschen dabei helfen, Maßnahmen zu ergreifen, die weit über die Chatbots von gestern hinausgehen, um bei der Lösung komplexerer Problemkomplexe zu helfen.

Das Fehlen einer zusammenhängenden Definition lässt zwar Raum für Verwirrung darüber, was diese Dinge genau tun werden, aber unabhängig davon, wie sie definiert sind, dienen die Agenten dazu, dabei zu helfen, Aufgaben auf automatisierte Weise mit so wenig menschlicher Interaktion wie möglich zu erledigen.

Rudina Seseri, Gründerin und geschäftsführende Gesellschafterin von Glasswing Ventures, sagt, es sei noch am Anfang und das könnte der Grund für die fehlende Einigung sein. „Es gibt keine einheitliche Definition dessen, was ein ‚KI-Agent‘ ist. Die häufigste Ansicht ist jedoch, dass ein Agent ein intelligentes Softwaresystem ist, das seine Umgebung wahrnimmt, über sie nachdenkt, Entscheidungen trifft und Maßnahmen ergreift, um bestimmte Ziele autonom zu erreichen“, sagte Seseri gegenüber Tech.

Sie sagt, dass sie eine Reihe von KI-Technologien nutzen, um dies zu erreichen. „Diese Systeme integrieren verschiedene KI/ML-Techniken wie die Verarbeitung natürlicher Sprache, maschinelles Lernen und Computer Vision, um in dynamischen Bereichen autonom oder zusammen mit anderen Agenten und menschlichen Benutzern zu arbeiten.“

Aaron Levie, Mitbegründer und CEO von Box, sagt, dass KI-Agenten im Laufe der Zeit, wenn die KI immer leistungsfähiger wird, in der Lage sein werden, viel mehr für den Menschen zu tun, und es sind bereits Dynamiken im Spiel, die diese Entwicklung vorantreiben werden.

„Bei KI-Agenten gibt es mehrere Komponenten eines sich selbst verstärkenden Schwungrads, die dazu beitragen werden, das, was KI-Agenten kurz- und langfristig erreichen können, erheblich zu verbessern: GPU-Preis/Leistung, Modelleffizienz, Modellqualität und -intelligenz, KI-Frameworks und.“ Verbesserungen der Infrastruktur“, schrieb Levie auf LinkedIn kürzlich.

Das ist eine optimistische Sicht auf die Technologie, die davon ausgeht, dass es in all diesen Bereichen Wachstum geben wird, obwohl dies nicht unbedingt eine Selbstverständlichkeit ist. Der Robotik-Pionier des MIT, Rodney Brooks, wies kürzlich in einem Tech-Interview darauf hin, dass KI mit viel schwierigeren Problemen zu kämpfen hat als die meisten Technologien und dass sie nicht unbedingt so schnell wachsen wird wie beispielsweise Chips nach dem Mooreschen Gesetz.

„Wenn ein Mensch sieht, dass ein KI-System eine Aufgabe ausführt, verallgemeinert er diese sofort auf ähnliche Dinge und schätzt die Kompetenz des KI-Systems ein; Nicht nur die Leistung dabei, sondern auch die Kompetenz dazu“, sagte Brooks während dieses Interviews. „Und sie sind normalerweise sehr zu optimistisch, und das liegt daran, dass sie ein Modell der Leistung einer Person bei einer Aufgabe verwenden.“

Das Problem besteht darin, dass die Systemübergreifendheit schwierig ist, und dies wird durch die Tatsache erschwert, dass einige Legacy-Systeme keinen grundlegenden API-Zugriff haben. Zwar sehen wir stetige Verbesserungen, auf die Levie anspielte, aber es könnte sich als schwieriger erweisen, Software auf mehrere Systeme zugreifen zu lassen und dabei möglicherweise auftretende Probleme zu lösen, als viele denken.

Wenn das der Fall ist, könnten alle überschätzen, wozu KI-Agenten in der Lage sein sollten. David Cushman, Forschungsleiter bei HFS Research, sieht die aktuellen Bots eher wie Asana: Assistenten, die Menschen dabei helfen, bestimmte Aufgaben zu erledigen, um ein benutzerdefiniertes strategisches Ziel zu erreichen. Die Herausforderung besteht darin, einer Maschine zu helfen, Eventualfälle wirklich automatisiert zu bewältigen, und wir sind offensichtlich noch nicht annähernd so weit.

„Ich denke, das ist der nächste Schritt“, sagte er. „Hier operiert die KI unabhängig und effektiv im großen Maßstab. Hier legen die Menschen also die Richtlinien und Leitplanken fest und wenden zahlreiche Technologien an, um den Menschen aus dem Kreislauf zu nehmen – wo doch alles darum ging, den Menschen zu behalten In die Schleife mit GenAI“, sagte er. Der Schlüssel sei hier also, sagte er, dem KI-Agenten die Kontrolle zu überlassen und echte Automatisierung anzuwenden.

Jon Turow, Partner bei Madrona Ventures, sagt, dass dies die Schaffung einer KI-Agenten-Infrastruktur erfordern wird, eines Tech-Stacks, der speziell für die Erstellung der Agenten (wie auch immer Sie sie definieren) entwickelt wurde. In einem aktuellen Blogbeitrag hat Turow skizzierte Beispiele für KI-Agenten derzeit in freier Wildbahn arbeiten und wie sie heute gebaut werden.

Nach Ansicht von Turow erfordert die zunehmende Verbreitung von KI-Agenten – und er gibt auch zu, dass die Definition immer noch etwas schwer zu fassen ist – einen Tech-Stack wie jede andere Technologie. „All dies bedeutet, dass unsere Branche noch viel zu tun hat, um eine Infrastruktur aufzubauen, die KI-Agenten und die Anwendungen, die auf ihnen basieren, unterstützt“, schrieb er in dem Artikel.

„Mit der Zeit wird sich die Argumentation allmählich verbessern, Grenzmodelle werden immer mehr Arbeitsabläufe steuern und Entwickler werden sich auf Produkte und Daten konzentrieren wollen – die Dinge, die sie auszeichnen. Sie möchten, dass die zugrunde liegende Plattform einfach skalierbar, leistungsstark und zuverlässig funktioniert.“

Eine weitere Sache, die Sie hier bedenken sollten, ist, dass wahrscheinlich mehrere Modelle und nicht ein einziges LLM erforderlich sind, damit Agenten funktionieren. Dies ist sinnvoll, wenn Sie diese Agenten als eine Sammlung verschiedener Aufgaben betrachten. „Ich glaube nicht, dass derzeit ein einzelnes großes Sprachmodell, zumindest kein öffentlich verfügbares, monolithisches großes Sprachmodell, in der Lage ist, Agentenaufgaben zu bewältigen. Ich glaube nicht, dass sie noch in der Lage sind, die mehrstufigen Überlegungen anzustellen, die mich wirklich für eine Agentenzukunft begeistern würden. Ich denke, wir kommen näher, aber es ist einfach noch nicht so weit“, sagte Fred Havemeyer, Leiter der US-amerikanischen KI- und Software-Forschung bei Macquarie US Equity Research.

„Ich denke, die effektivsten Agenten werden wahrscheinlich mehrere Sammlungen mehrerer verschiedener Modelle mit einer Routing-Schicht sein, die Anfragen oder Eingabeaufforderungen an den effektivsten Agenten und das effektivste Modell sendet. Und ich denke, es wäre irgendwie interessant [automated] Vorgesetzte, delegierende Rolle.“

Letztendlich arbeitet die Branche für Havemeyer auf das Ziel hin, dass die Agenten unabhängig agieren. „Wenn ich über die Zukunft der Agenten nachdenke, möchte und hoffe ich, dass Agenten wirklich autonom sind und in der Lage sind, abstrakte Ziele zu verfolgen und dann alle einzelnen Schritte dazwischen völlig unabhängig zu durchdenken“, sagte er Tech.

Tatsache ist jedoch, dass wir uns in Bezug auf diese Agenten immer noch in einer Übergangsphase befinden und nicht wissen, wann wir diesen von Havemeyer beschriebenen Endzustand erreichen werden. Obwohl das, was wir bisher gesehen haben, eindeutig ein vielversprechender Schritt in die richtige Richtung ist, brauchen wir noch einige Fortschritte und Durchbrüche, damit KI-Agenten so funktionieren können, wie sie es sich heute vorstellen. Und es ist wichtig zu verstehen, dass wir noch nicht so weit sind.

Diese Geschichte wurde ursprünglich am 13. Juli 2024 veröffentlicht und aktualisiert, um neue Agenten von Perplexity und Google einzubeziehen.

tch-1-tech