OpenAI bildet ein neues Team unter der Leitung von Ilya Sutskever, seinem Chefwissenschaftler und einem der Mitbegründer des Unternehmens, um Möglichkeiten zur Steuerung und Kontrolle „superintelligenter“ KI-Systeme zu entwickeln.
In einem Blog In einem heute veröffentlichten Beitrag sagen Sutskever und Jan Leike, Leiter des Alignment-Teams bei OpenAI, voraus, dass KI mit einer Intelligenz, die die des Menschen übersteigt, innerhalb des Jahrzehnts auf den Markt kommen könnte. Diese KI – vorausgesetzt, sie kommt tatsächlich irgendwann an – wird nicht unbedingt wohlwollend sein und erfordert die Erforschung von Möglichkeiten, sie zu kontrollieren und einzuschränken, sagen Sutskever und Leike.
„Derzeit haben wir keine Lösung, um eine potenziell superintelligente KI zu steuern oder zu kontrollieren und zu verhindern, dass sie abtrünnig wird“, schreiben sie. „Unsere aktuellen Techniken zur Ausrichtung der KI, wie zum Beispiel das verstärkende Lernen aus menschlichem Feedback, basieren auf der Fähigkeit des Menschen, die KI zu überwachen. Aber viel intelligenter als wir werden Menschen nicht in der Lage sein, KI-Systeme zuverlässig zu überwachen.“
Um im Bereich „Superintelligence Alignment“ voranzukommen, stellt OpenAI ein neues Superalignment-Team unter der Leitung von Sutskever und Leike zusammen, das Zugriff auf 20 % der Rechenleistung haben wird, die sich das Unternehmen bisher gesichert hat. Zusammen mit Wissenschaftlern und Ingenieuren des früheren Alignment-Teams von OpenAI sowie Forschern aus anderen Organisationen des Unternehmens wird das Team in den nächsten vier Jahren die Lösung der zentralen technischen Herausforderungen bei der Steuerung superintelligenter KI anstreben.
Wie? Durch den Aufbau dessen, was Sutskever und Leike als „automatisierten Ausrichtungsforscher auf menschlicher Ebene“ beschreiben. Das Ziel besteht darin, KI-Systeme mithilfe von menschlichem Feedback zu trainieren, KI zu trainieren, um bei der menschlichen Bewertung zu helfen, und letztendlich eine KI zu entwickeln, die Ausrichtungsforschung durchführen kann. (Hier bezieht sich „Alignment-Forschung“ darauf, sicherzustellen, dass KI-Systeme die gewünschten Ergebnisse erzielen.)
Es ist die Hypothese von OpenAI, dass KI schnellere und bessere Ausrichtungsforschungsfortschritte erzielen kann als Menschen.
„Wenn wir diesbezüglich Fortschritte machen, können unsere KI-Systeme immer mehr unserer Ausrichtungsarbeit übernehmen und letztendlich bessere Ausrichtungstechniken konzipieren, implementieren, studieren und entwickeln, als wir es jetzt haben“, sagte Leike und seine Kollegen John Schulman und Jeffrey Wu erklären in einem früheren Blog Post. „Sie werden mit Menschen zusammenarbeiten, um sicherzustellen, dass ihre eigenen Nachfolger stärker auf Menschen ausgerichtet sind. Humanforscher werden ihre Bemühungen immer mehr auf die Überprüfung der von KI-Systemen durchgeführten Ausrichtungsforschung konzentrieren, anstatt diese Forschung selbst zu generieren.“
Natürlich ist keine Methode narrensicher – und Leike, Schulman und Wu erkennen in ihrem Beitrag die vielen Einschränkungen von OpenAI an. Der Einsatz von KI zur Bewertung birgt das Potenzial, Inkonsistenzen, Vorurteile oder Schwachstellen in dieser KI zu vergrößern. Und es könnte sich herausstellen, dass die schwierigsten Teile des Ausrichtungsproblems möglicherweise nichts mit der Technik zu tun haben.
Aber Sutskever und Leike finden, dass es einen Versuch wert ist.
„Die Ausrichtung der Superintelligenz ist im Grunde ein Problem des maschinellen Lernens, und wir glauben, dass großartige Experten für maschinelles Lernen – auch wenn sie noch nicht an der Ausrichtung arbeiten – von entscheidender Bedeutung für die Lösung des Problems sein werden“, schreiben sie. „Wir planen, die Früchte dieser Bemühungen einer breiten Öffentlichkeit zugänglich zu machen und betrachten den Beitrag zur Ausrichtung und Sicherheit von Nicht-OpenAI-Modellen als einen wichtigen Teil unserer Arbeit.“