ChatGPT von OpenAI beginnt mit anderen Apps auf Ihrem Computer zu arbeiten.
Am Donnerstag gab das Startup bekannt, dass die ChatGPT-Desktop-App für MacOS nun Code in einer Handvoll entwicklerorientierter Codierungs-Apps wie VS Code, Xcode, TextEdit, Terminal und iTerm2 lesen kann.
Das bedeutet, dass Entwickler ihren Code nicht mehr kopieren und in ChatGPT einfügen müssen, was mittlerweile eine gängige Methode zur Verwendung des Chatbots ist. Wenn die Funktion nun aktiviert ist, sendet OpenAI zusammen mit Ihrer Eingabeaufforderung automatisch den Codeabschnitt, an dem Sie arbeiten, über seinen Chatbot als Kontext.
Allerdings ist ChatGPT im Gegensatz zu beliebten KI-Codierungstools wie Cursor oder GitHub Copilot derzeit nicht in der Lage, in Ihrem Namen Code direkt in Entwickler-Apps zu schreiben.
Die Funktion namens „Work with Apps“ ist weit entfernt von einem KI-Agenten, aber OpenAI sagt, dass es ein „Schlüsselbaustein“ für den Aufbau von Agentensystemen ist, ChatGPT dazu zu bringen, andere Apps zu verstehen. Eine der größten Herausforderungen für KI-Agenten besteht heute darin, sie dazu zu bringen, den Rest Ihres Computerbildschirms zu verstehen und nicht nur Eingabeaufforderungen oder ihre eigenen Antworten.
OpenAI sagt, dass es diese Funktion auf die Codierung von Apps konzentriert, um sie zu starten; Dies liegt wahrscheinlich daran, dass KI-Codierungsassistenten zu einem der beliebtesten Anwendungsfälle für LLMs geworden sind. Die Funktion ist heute für Plus- und Teams-Benutzer verfügbar und wird in den nächsten Wochen für Enterprise und Edu eingeführt. OpenAI sagt, dass ChatGPT in Zukunft mit anderen Arten von Apps zusammenarbeiten kann, insbesondere mit textbasierten Apps, die für Schreibaufgaben verwendet werden könnten.
In einer Demo mit Tech öffnete ein OpenAI-Mitarbeiter die ChatGPT-App und eine Xcode-Umgebung, die ein einfaches Projekt zur Modellierung des Sonnensystems enthielt – obwohl die Erde fehlte. Der Mitarbeiter wählte in ChatGPT eine Xcode-Registerkarte aus, die den KI-Chatbot anweist, sich die App anzusehen, und forderte den Chatbot auf, „die fehlenden Planeten hinzuzufügen“. Der Chatbot konnte die Aufgabe abschließen und eine Codezeile schreiben, um die Erde darzustellen, die dem restlichen Format des Projekts entsprach. Allerdings mussten sie die Antwort von ChatGPT immer noch wieder in ihre Umgebung einfügen.
Um verschiedene Apps zu lesen, verlässt sich OpenAI hauptsächlich auf die MacOS Accessibility API, um Text zu lesen und in ChatGPT zu übersetzen, so OpenAI-Desktop-Produktleiter Alexander Embiricos. Den MacOS-Bildschirmleser, der Apples VoiceOver-Funktion unterstützt, gibt es schon seit fast zwei Jahrzehnten. Es gilt im Allgemeinen für die meisten gängigen Apps als ziemlich zuverlässig, aber nicht für alle.
Für einige Apps, wie z. B. VS Code von Microsoft, erfordert Work with Apps, dass Benutzer eine spezielle Erweiterung installieren, um Inhalte abzufragen. Und wie der Name schon sagt, kann der Bildschirmleser von Apple nur Text lesen, sodass er ChatGPT nicht dabei helfen kann, visuelle Elemente zu verstehen – wie Fotos, die Ausrichtung von Objekten oder Videos.
Arbeiten Sie mit Apps, indem Sie Ihre letzten 200 Codezeilen über ChatGPT zusammen mit jeder Eingabeaufforderung für bestimmte Apps senden. Bei anderen wird der gesamte Code in Ihrem vordersten Fenster als Eingabe für den Chatbot verwendet. Sie können Code- oder Textabschnitte hervorheben, um ChatGPT dabei zu helfen, sich auf den richtigen Teil des Projekts zu konzentrieren. ChatGPT fügt jedoch auch Text ein, der ihn umgibt. Das hört sich alles so an, als würden viele Eingabe-Tokens verwendet.
Es ist unklar, wie OpenAI diese Funktion auf andere Apps ausweiten will, die nicht mit dem Bildschirmleser von Apple kompatibel sind. Anthropic, einer der Konkurrenten von OpenAI, hat ein KI-System veröffentlicht, das Screenshots des Desktops eines Benutzers analysiert, um andere Apps zu verstehen und zu verwenden. Ehrlich gesagt lässt der Ansatz von Anthropic in seiner jetzigen Form zu wünschen übrig: Er ist langsam und macht viele Fehler. Es handelt sich jedoch um eine allgemeinere Version eines KI-Agenten, die nicht auf APIs angewiesen ist und mehr kann, als nur Text in einem anderen Fenster zu lesen.
„Dies ist nicht als Agent gedacht, es ist eine Möglichkeit, zunächst mit Codierungstools zusammenzuarbeiten, und es werden bald weitere Tools verfügbar sein“, sagte Embiricos in einem Briefing mit Tech. „Auf der Seite der Agenten ist dies meiner Meinung nach ein wirklich wichtiger Baustein. Diese Idee ist, dass ChatGPT alle Inhalte, die Sie haben, versteht oder mit ihnen arbeiten kann, sodass es Ihnen dabei helfen kann.“
Dieser Schritt in Richtung Agenten ist besonders bemerkenswert angesichts der jüngsten Berichte, dass OpenAI kurz vor der Veröffentlichung eines Allzweck-KI-Agenten mit dem Codenamen „Operator“ steht Bloomberg. Das Tool wird voraussichtlich Anfang 2025 auf den Markt kommen und würde mit anderen frühen Versuchen von Allzweck-KI-Agenten konkurrieren, wie beispielsweise Anthropics Computernutzung oder Googles gemeldeter „Jarvis“-Agent.
OpenAI veröffentlicht diese Funktionen zunächst auf MacOS, kurz bevor Apple im Dezember eine Integration mit ChatGPT startet. Es ist unklar, wann Work with Apps für Windows verfügbar sein wird, das Betriebssystem, das von Microsoft, dem größten Unterstützer von OpenAI, entwickelt wurde.