Das Agent-Tool von OpenAI steht möglicherweise kurz vor der Veröffentlichung

OpenAI steht möglicherweise kurz vor der Veröffentlichung eines KI-Tools, das die Kontrolle über Ihren PC übernehmen und in Ihrem Namen Aktionen ausführen kann.

Tibor Blaho, ein Softwareentwickler mit dem Ruf, kommende KI-Produkte präzise durchsickern zu lassen, Ansprüche Beweise für das seit langem gemunkelte Operator-Tool von OpenAI entdeckt zu haben. Veröffentlichungen einschließlich Bloomberg hat zuvor gemeldet on Operator, bei dem es sich angeblich um ein „agentisches“ System handelt, das Aufgaben wie das Schreiben von Code und das Buchen von Reisen autonom erledigen kann.

Nach Laut The Information strebt OpenAI den Januar als Veröffentlichungsmonat des Betreibers an. Der an diesem Wochenende von Blaho aufgedeckte Code verleiht dieser Berichterstattung zusätzliche Glaubwürdigkeit.

Der ChatGPT-Client von OpenAI für macOS hat laut Blaho vorerst verborgene Optionen zum Definieren von Verknüpfungen zu „Toggle Operator“ und „Force Quit Operator“ erhalten. Und OpenAI hat auf seiner Website Verweise auf Operator hinzugefügt, sagte Blaho – allerdings Verweise, die noch nicht öffentlich sichtbar sind.

Laut Blaho enthält die Website von OpenAI auch noch nicht öffentliche Tabellen, in denen die Leistung von Operator mit anderen computergestützten KI-Systemen verglichen wird. Bei den Tabellen kann es sich durchaus um Platzhalter handeln. Wenn die Zahlen jedoch korrekt sind, deuten sie darauf hin, dass der Bediener je nach Aufgabe nicht 100 % zuverlässig ist.

Auf OSWorld, einem Benchmark, der versucht, eine echte Computerumgebung nachzuahmen, erreicht „OpenAI Computer Use Agent (CUA)“ – möglicherweise das KI-Modell, das Operator antreibt – 38,1 % und liegt damit vor dem Computersteuerungsmodell von Anthropic, aber deutlich hinter den 72,4 % Menschen Punktzahl. OpenAI CUA übertrifft die menschliche Leistung auf WebVoyager, das die Fähigkeit einer KI bewertet, auf Websites zu navigieren und mit ihnen zu interagieren. Laut den durchgesickerten Benchmarks erreicht das Modell jedoch bei einem anderen webbasierten Benchmark, WebArena, keine menschlichen Werte.

Der Bediener hat auch Probleme mit Aufgaben, die ein Mensch problemlos ausführen könnte, wenn man dem Leck Glauben schenken darf. Bei einem Test, bei dem Operator aufgefordert wurde, sich bei einem Cloud-Anbieter anzumelden und eine virtuelle Maschine zu starten, war Operator nur in 60 % der Fälle erfolgreich. Bei der Aufgabe, ein Bitcoin-Wallet zu erstellen, gelang es dem Betreiber nur in 10 % der Fälle.

Der bevorstehende Einstieg von OpenAI in den Bereich der KI-Agenten erfolgt, da Konkurrenten wie die bereits erwähnten Unternehmen Anthropic, Google und andere sich für das aufstrebende Segment engagieren. KI-Agenten können es sein riskant und spekulativaber Technologiegiganten preisen sie bereits als das nächste große Ding in der KI an. Nach Laut dem Analyseunternehmen Markets and Markets könnte der Markt für KI-Agenten bis 2030 einen Wert von 47,1 Milliarden US-Dollar haben.

Heutzutage sind Agenten eher primitiv. Einige Experten haben jedoch Bedenken hinsichtlich ihrer Sicherheit geäußert, sollte sich die Technologie rasch verbessern.

Eines der durchgesickerten Diagramme zeigt, dass Operator bei ausgewählten Sicherheitsbewertungen gut abschneidet, einschließlich Tests, bei denen versucht wird, das System dazu zu bringen, „illegale Aktivitäten“ durchzuführen und nach „sensiblen personenbezogenen Daten“ zu suchen. Berichten zufolgeSicherheitstests sind einer der Gründe für den langen Entwicklungszyklus von Operator. In einem aktuellen X PostOpenAI-Mitbegründer Wojciech Zaremba kritisierte Anthropic für die Veröffentlichung eines Agenten, der seiner Meinung nach Sicherheitsmaßnahmen vermisse.

„Ich kann mir die negativen Reaktionen nur vorstellen, wenn OpenAI eine ähnliche Veröffentlichung herausbringen würde“, schrieb Zaremba.

Es ist erwähnenswert, dass OpenAI von KI-Forschern, darunter auch ehemaligen Mitarbeitern, dafür kritisiert wurde, dass es angeblich die Sicherheitsarbeit zugunsten einer schnellen Produktivsetzung seiner Technologie vernachlässigt habe.



tch-1-tech