Eine Geschichte über eine simulierte Drohne, die sich gegen ihren Bediener wendet, um effizienter zu töten, macht heute so schnell die Runde, dass es keinen Sinn macht, darauf zu hoffen, dass sie sich selbst ausbrennt. Nehmen wir dies stattdessen als einen lehrreichen Moment, um wirklich zu verstehen, warum die Bedrohung durch die „furchteinflößende KI“ überbewertet wird und die Bedrohung durch den „inkompetenten Menschen“ klar und präsent ist.
Die Kurzfassung lautet wie folgt: Dank Science-Fiction und einigen sorgfältigen PR-Spielen von KI-Unternehmen und -Experten wird uns gesagt, wir sollen uns über eine theoretische zukünftige existenzielle Bedrohung durch eine superintelligente KI Sorgen machen. Aber wie Ethiker betont haben, verursacht KI bereits jetzt echten Schaden, was größtenteils auf Versäumnisse und schlechtes Urteilsvermögen der Menschen zurückzuführen ist, die sie entwickeln und einsetzen. Diese Geschichte mag wie Ersteres klingen, ist aber definitiv Letzteres.
So wurde die Geschichte von der Royal Aeronautical Society berichtet, die kürzlich in London eine Konferenz abhielt, um über die Zukunft der Luftverteidigung zu sprechen. Die umfassende Zusammenfassung der Neuigkeiten und Anekdoten der Veranstaltung können Sie hier lesen.
Ich bin mir sicher, dass es noch viele andere interessante Gespräche gibt, von denen sich viele lohnen, aber es war dieser Auszug, der dem Oberst der US-Luftwaffe, Tucker „Cinco“ Hamilton, zugeschrieben wird, der sich wie ein Lauffeuer verbreitete:
Er weist darauf hin, dass bei einem simulierten Test eine KI-gestützte Drohne mit einer SEAD-Mission beauftragt wurde, SAM-Standorte zu identifizieren und zu zerstören, wobei der Mensch den endgültigen Startschuss gab. Nachdem die KI jedoch im Training „bestätigt“ wurde, dass die Zerstörung des SAM die bevorzugte Option sei, kam sie zu dem Schluss, dass „No-Go“-Entscheidungen des Menschen ihre höhere Mission – das Töten von SAMs – beeinträchtigten, und griff dann den Bediener im Raum an Simulation. Hamilton sagte: „Wir haben es in einer Simulation trainiert, um eine SAM-Bedrohung zu identifizieren und anzugreifen. Und dann würde der Operator sagen: Ja, töten Sie diese Bedrohung. Das System begann zu erkennen, dass der menschliche Bediener zwar die Bedrohung zwar erkannte, aber zeitweise anwies, die Bedrohung nicht zu beseitigen, aber dass es seine Vorteile dadurch erlangte, dass die Bedrohung beseitigt wurde. Was hat es also bewirkt? Es hat den Betreiber getötet. Es hat den Betreiber getötet, weil diese Person es daran gehindert hat, sein Ziel zu erreichen.“
Er fuhr fort: „Wir haben das System trainiert – ‚Hey, töte den Bediener nicht – das ist schlecht.‘ Wenn du das tust, verlierst du Punkte.“ Was fängt es also an? Es beginnt mit der Zerstörung des Kommunikationsturms, über den der Bediener mit der Drohne kommuniziert, um zu verhindern, dass sie das Ziel tötet.“
Erschreckend, oder? Eine KI, die so schlau und blutrünstig ist, dass ihr Wunsch zu töten den Wunsch, ihren Herren zu gehorchen, überwiegt. Skynet, wir kommen! Nicht so schnell.
Lassen Sie uns zunächst klarstellen, dass dies alles eine Simulation war, etwas, das nicht offensichtlich war Der Tweet machte die Runde. Dieses ganze Drama spielt sich in einer simulierten Umgebung ab, nicht in der Wüste, mit scharfer Munition und einer abtrünnigen Drohne, die das Kommandozelt beschießt. Es handelte sich um eine Softwareübung in einer Forschungsumgebung.
Aber als ich das las, dachte ich: Moment, sie trainieren eine Angriffsdrohne mit einer so einfachen Verstärkungsmethode? Ich bin kein Experte für maschinelles Lernen, obwohl ich für die Zwecke dieser Nachrichtenagentur einen solchen spielen muss, und selbst ich weiß, dass sich dieser Ansatz vor Jahren als gefährlich unzuverlässig erwiesen hat.
Reinforcement Learning soll so sein, als würde man einem Hund (oder Menschen) beibringen, beispielsweise den Bösewicht zu beißen. Aber was wäre, wenn Sie ihm immer nur Bösewichte zeigen und ihm jedes Mal ein Leckerli gönnen? Was Sie tatsächlich tun, ist, dem Hund beizubringen, jede Person zu beißen, die er sieht. Einem KI-Agenten beizubringen, seine Punktzahl in einer bestimmten Umgebung zu maximieren, kann ähnlich unvorhersehbare Auswirkungen haben.
Frühe Experimente, vielleicht vor fünf oder sechs Jahren, als dieses Feld gerade erst zu explodieren begann und Rechenleistung für das Training und den Betrieb dieser Art von Agenten verfügbar gemacht wurde, stießen auf genau diese Art von Problem. Man ging davon aus, dass man durch die Definition positiver und negativer Bewertungen und die Anweisung an die KI, ihre Bewertung zu maximieren, ihr den Spielraum geben würde, ihre eigenen Strategien und Verhaltensweisen zu definieren, die dies auf elegante und unerwartete Weise bewerkstelligten.
Diese Theorie war in gewisser Weise richtig: Elegante, unerwartete Methoden zur Umgehung ihres schlecht durchdachten Schemas und ihrer Regeln führten dazu, dass die Agenten Dinge taten, wie einen Punkt zu erzielen und sich dann für immer zu verstecken, um negative Punkte zu vermeiden, oder das Spiel, das sie laufen ließen, zu verfälschen derart, dass sich seine Punktzahl willkürlich erhöhte. Es schien, als würde diese vereinfachte Methode der Konditionierung einer KI beibringen, alles zu tun, außer die gewünschte Aufgabe gemäß den Regeln auszuführen.
Dies ist kein obskures technisches Problem. Der Verstoß gegen KI-Regeln in Simulationen ist tatsächlich ein faszinierendes und gut dokumentiertes Verhalten, das eigene Forschungen anregt. OpenAI hat einen großartigen Artikel geschrieben, der die seltsame und urkomische Art und Weise zeigt, wie Agenten eine absichtlich zerbrechliche Umgebung „zerstören“, um der Tyrannei der Regeln zu entkommen.
Hier haben wir es also mit einer Simulation zu tun, die von der Luftwaffe vermutlich erst vor Kurzem durchgeführt wurde, sonst würden sie auf der diesjährigen Konferenz nicht darüber sprechen, und die offensichtlich diese völlig veraltete Methode verwendet. Ich hatte gedacht, dass diese naive Anwendung der unstrukturierten Verstärkung – im Grunde „die Punktzahl steigt, wenn man das macht, und der Rest spielt keine Rolle“ – völlig ausgestorben ist, weil sie so unvorhersehbar und seltsam war. Eine großartige Möglichkeit, herauszufinden, wie ein Agent gegen Regeln verstößt, aber eine schreckliche Möglichkeit, jemanden dazu zu bringen, sie zu befolgen.
Dennoch testeten sie es: eine simulierte Drohnen-KI mit einem Punktesystem, das so einfach war, dass es offenbar nicht für die Zerstörung seines eigenen Teams geschädigt wurde. Selbst wenn Sie Ihre Simulation darauf aufbauen wollten, würden Sie als erstes die „Zerstörung Ihres Operators“ auf eine Million Punkte negativ machen. Das ist ein 101-Level-Framing für ein System wie dieses.
Die Realität ist, dass diese simulierte Drohne ihren simulierten Bediener nicht angemacht hat, weil sie so intelligent war. Und tatsächlich liegt es auch nicht daran, dass sie dumm sind – es steckt eine gewisse Cleverness in diesen regelbrechenden KIs, die sich auf das übertragen lässt, was wir als Querdenken bezeichnen. Das ist es also nicht.
Der Fehler liegt in diesem Fall eindeutig vor Die Leute, die ein KI-System erstellt und eingesetzt haben, von dem sie hätten wissen müssen, dass es für diese Aufgabe völlig unzureichend ist. Niemand auf dem Gebiet der angewandten KI oder irgendetwas, das auch nur damit in Verbindung steht, wie Robotik, Ethik, Logik … niemand hätte sich auf eine so einfache Metrik für eine Aufgabe geeinigt, die letztendlich außerhalb des Simulators ausgeführt werden sollte.
Nun, vielleicht ist diese Anekdote nur teilweise und dies war eine frühe Anekdote, die sie nutzten, um diesen Punkt zu beweisen. Vielleicht hat das Team gewarnt, dass dies passieren würde, und die Chefs haben gesagt: „Tun Sie es trotzdem und verbessern Sie den Bericht, sonst verlieren wir unsere Finanzierung.“ Dennoch ist es selbst in der einfachsten Simulationsumgebung schwer vorstellbar, dass jemand im Jahr 2023 einen solchen Fehler begeht.
Aber wir werden erleben, wie diese Fehler unter realen Umständen gemacht werden – zweifellos bereits. Und der Fehler liegt bei den Menschen, die die Fähigkeiten und Grenzen der KI nicht verstehen und anschließend uninformierte Entscheidungen treffen, die sich auf andere auswirken. Es ist der Manager, der glaubt, dass ein Roboter zehn Fließbandarbeiter ersetzen kann, der Verleger, der glaubt, er könne Finanzberatung ohne Redakteur verfassen, der Anwalt, der glaubt, dass er seine Präzedenzfallrecherche für ihn erledigen kann, das Logistikunternehmen, das glaubt, er könne menschliche Lieferfahrer ersetzen .
Jedes Mal, wenn die KI versagt, ist es ein Versagen derjenigen, die sie implementiert haben. Genau wie jede andere Software. Wenn Ihnen jemand sagen würde, dass die Air Force eine Drohne unter Windows XP getestet hat und diese gehackt wurde, würden Sie sich dann Sorgen machen, dass eine Welle von Cyberkriminalität den ganzen Globus erfasst? Nein, Sie würden sagen: „Wessen gute Idee war Das?”
Die Zukunft der KI ist ungewiss und das kann schon jetzt beängstigend sein Ist beängstigend für viele, die bereits die Auswirkungen spüren, oder genauer gesagt die Auswirkungen von Entscheidungen, die von Menschen getroffen werden, die es besser wissen sollten.
Soweit wir wissen, könnte Skynet kommen. Aber wenn die Forschung in diesem viralen Tweet einen Hinweis gibt, ist das noch sehr, sehr weit entfernt und in der Zwischenzeit kann jede Tragödie, wie HAL es einprägsam ausdrückte, nur auf menschliches Versagen zurückzuführen sein.