In einem Reddit AMASam Altman, CEO von OpenAI, gab zu, dass mangelnde Rechenkapazität ein wesentlicher Faktor ist, der das Unternehmen daran hindert, Produkte so oft auszuliefern, wie es möchte.
„Alle diese Modelle sind ziemlich komplex geworden“, schrieb er als Antwort auf die Frage, warum die nächsten KI-Modelle von OpenAI so lange brauchten. „Außerdem stehen wir vor vielen Einschränkungen und schwierigen Entscheidungen darüber, wie wir unsere Rechenleistung für viele großartige Ideen einsetzen.“
Viele Berichte deuten darauf hin, dass OpenAI Schwierigkeiten hatte, genügend Recheninfrastruktur zu sichern, um seine generativen Modelle auszuführen und zu trainieren. Erst diese Woche sagte Reuters unter Berufung auf Quellen, dass OpenAI seit Monaten mit Broadcom zusammenarbeitet, um einen KI-Chip für laufende Modelle zu entwickeln, der bereits 2026 auf den Markt kommen könnte.
Teilweise aufgrund der angespannten Kapazität, sagte Altman, werde OpenAIs realistisch klingende Konversationsfunktion für ChatGPT, Advanced Voice Mode, in absehbarer Zeit nicht die erstmals im April getesteten Vision-Funktionen erhalten. Auf seiner Presseveranstaltung im April zeigte OpenAI die ChatGPT-App, die auf einem Smartphone läuft und auf visuelle Hinweise reagiert, beispielsweise auf die Kleidung, die jemand trägt, im Sichtfeld der Kamera des Telefons.
Berichterstattung von Fortune gab später bekannt, dass die Demo überstürzt durchgeführt wurde, um die Aufmerksamkeit von Googles I/O-Entwicklerkonferenz abzulenken, die in derselben Woche stattfand. Viele innerhalb von OpenAI glaubten nicht, dass GPT-4o zur Veröffentlichung bereit war – bezeichnenderweise verzögerte sich die reine Sprachversion des Advanced Voice Mode um Monate.
Im AMA wies Altman darauf hin, dass es für die nächste Hauptversion des Bildgenerators von OpenAI, DALL-E, keinen Startzeitplan gibt. („Wir haben noch keinen Veröffentlichungsplan“, sagte er.) Unterdessen wurde Sora, das Videogenerierungstool von OpenAI, durch die „Notwendigkeit, das Modell zu perfektionieren, Sicherheit/Identitätswechsel/andere Dinge richtig zu machen usw.“ zurückgehalten Scale Compute“, schrieb Kevin Weil, Chief Product Officer von OpenAI, der auch an der AMA teilnahm.
Berichten zufolge hat Sora unter technischen Rückschlägen gelitten, die es im Vergleich zu Konkurrenzsystemen von Luma, Runway und anderen schlecht positionieren. Pro Das im Februar enthüllte ursprüngliche System benötigte mehr als 10 Minuten Verarbeitungszeit, um einen einminütigen Videoclip zu erstellen.
Im Oktober wechselte einer der Co-Leads von Sora, Tim Brooks, zu Google.
Später im AMA sagte Altman, dass OpenAI immer noch darüber nachdenkt, „irgendwann“ „NSFW“-Inhalte in ChatGPT zuzulassen („wir glauben fest daran, erwachsene Benutzer wie Erwachsene zu behandeln“, schrieb er) und dass die oberste Priorität des Unternehmens darin besteht, seine o1-Serie zu verbessern „Argumentationsmodelle“ und ihre Nachfolger. OpenAI in der Vorschau angezeigt Eine Reihe von Features, die o1 diese Woche auf seiner DevDay-Konferenz in London vorstellen wird, darunter das Bildverständnis.
„Wir haben noch in diesem Jahr einige sehr gute Veröffentlichungen vor uns“, schrieb Altman. „Allerdings nichts, was wir GPT-5 nennen werden.“