OpenAI-Hack erinnert daran, dass KI-Unternehmen wahre Fundgruben für Hacker sind

Sie müssen sich keine Sorgen machen, dass Ihre geheimen ChatGPT-Konversationen bei einem kürzlich gemeldeten Einbruch in die Systeme von OpenAI abgegriffen wurden. Der Hack selbst war zwar beunruhigend, schien aber oberflächlich gewesen zu sein – aber er erinnert uns daran, dass KI-Unternehmen sich in kurzer Zeit zu einem der attraktivsten Ziele für Hacker entwickelt haben.

Die New York Times berichtete ausführlicher über den Hack, nachdem der ehemalige OpenAI-Mitarbeiter Leopold Aschenbrenner deutete es kürzlich in einem Podcast an. Er sprach von einem „schweren Sicherheitsvorfall“, aber anonyme Unternehmensquellen teilten der Times mit, der Hacker habe lediglich Zugang zu einem Diskussionsforum für Mitarbeiter erhalten. (Ich habe OpenAI um Bestätigung und einen Kommentar gebeten.)

Kein Sicherheitsverstoß sollte wirklich als trivial behandelt werden, und das Abhören interner OpenAI-Entwicklungsgespräche hat sicherlich seinen Wert. Aber es ist weit davon entfernt, dass ein Hacker Zugriff auf interne Systeme, in Arbeit befindliche Modelle, geheime Roadmaps usw. erhält.

Aber es sollte uns trotzdem Angst machen, und zwar nicht unbedingt wegen der Gefahr, dass China oder andere Gegner uns im KI-Wettrüsten überholen könnten. Tatsache ist schlicht und einfach, dass diese KI-Unternehmen zu Torhütern einer enormen Menge sehr wertvoller Daten geworden sind.

Lassen Sie uns über drei Arten von Daten sprechen, die OpenAI und – in geringerem Maße – andere KI-Unternehmen erstellt haben oder auf die sie Zugriff haben: hochwertige Trainingsdaten, Masseninteraktionen von Benutzern und Kundendaten.

Es ist unklar, über welche Trainingsdaten sie genau verfügen, da die Unternehmen ihre Horte unglaublich geheim halten. Aber es ist ein Fehler zu glauben, dass es sich nur um große Haufen ausgelesener Webdaten handelt. Ja, sie verwenden Web Scraper oder Datensätze wie den Pile, aber es ist eine gigantische Aufgabe, diese Rohdaten in etwas umzuwandeln, das zum Trainieren eines Modells wie GPT-4o verwendet werden kann. Dafür sind enorme menschliche Arbeitsstunden erforderlich – es kann nur teilweise automatisiert werden.

Einige Ingenieure für maschinelles Lernen haben spekuliert, dass von allen Faktoren, die in die Erstellung eines großen Sprachmodells (oder vielleicht eines transformatorbasierten Systems) einfließen, die Qualität des Datensatzes der wichtigste ist. Aus diesem Grund wird ein Modell, das auf Twitter und Reddit trainiert wurde, nie so eloquent sein wie eines, das auf allen veröffentlichten Arbeiten des letzten Jahrhunderts trainiert wurde. (Und wahrscheinlich auch der Grund, warum OpenAI Berichten zufolge haben in ihren Trainingsdaten fragwürdige legale Quellen wie urheberrechtlich geschützte Bücher verwendet, eine Praxis, die sie angeblich aufgegeben haben.)

Daher sind die von OpenAI erstellten Trainingsdatensätze für Wettbewerber von enormem Wert – von anderen Unternehmen über gegnerische Staaten bis hin zu Regulierungsbehörden hier in den USA. Würden die FTC oder die Gerichte nicht gerne genau wissen, welche Daten verwendet wurden und ob OpenAI diesbezüglich die Wahrheit gesagt hat?

Aber vielleicht noch wertvoller ist OpenAIs riesiger Schatz an Benutzerdaten – wahrscheinlich Milliarden von Gesprächen mit ChatGPT zu Hunderttausenden von Themen. So wie Suchdaten einst der Schlüssel zum Verständnis der kollektiven Psyche des Webs waren, hat ChatGPT den Finger am Puls einer Bevölkerung, die vielleicht nicht so breit ist wie das Universum der Google-Benutzer, aber viel mehr Tiefe bietet. (Falls Sie es nicht wussten: Sofern Sie sich nicht abmelden, werden Ihre Gespräche als Trainingsdaten verwendet.)

Bei Google zeigt ein Anstieg der Suchanfragen nach „Klimaanlagen“, dass der Markt etwas an Fahrt gewinnt. Doch diese Nutzer führen dann keine ausführliche Unterhaltung darüber, was sie wollen, wie viel Geld sie ausgeben möchten, wie ihr Zuhause aussieht, welche Hersteller sie meiden möchten usw. Sie wissen, dass dies wertvoll ist, weil Google selbst versucht, seine Nutzer dazu zu bewegen, genau diese Informationen bereitzustellen, indem es Suchanfragen durch KI-Interaktionen ersetzt!

Überlegen Sie, wie viele Gespräche die Leute mit ChatGPT geführt haben und wie nützlich diese Informationen sind, nicht nur für Entwickler von KIs, sondern auch für Marketingteams, Berater, Analysten … es ist eine Goldmine.

Die letzte Datenkategorie ist auf dem freien Markt möglicherweise die wertvollste: wie Kunden KI tatsächlich nutzen und welche Daten sie selbst in die Modelle eingespeist haben.

Hunderte von Großunternehmen und unzählige kleinere nutzen Tools wie OpenAI und die APIs von Anthropic für eine ebenso große Bandbreite an Aufgaben. Und damit ein Sprachmodell für sie von Nutzen ist, muss es normalerweise feinabgestimmt werden oder anderweitig Zugriff auf ihre eigenen internen Datenbanken erhalten.

Dabei kann es sich um etwas so Alltägliches wie alte Haushaltspläne oder Personalakten handeln (um sie beispielsweise leichter durchsuchbar zu machen) oder um so wertvolle Dinge wie Code für eine noch nicht veröffentlichte Software. Was sie mit den Fähigkeiten der KI machen (und ob sie tatsächlich nützlich sind), ist ihre Sache, aber Tatsache ist, dass der KI-Anbieter privilegierten Zugriff hat, genau wie bei jedem anderen SaaS-Produkt.

Dies sind Industriegeheimnisse, und KI-Unternehmen sind plötzlich mittendrin in vielen davon. Die Neuheit dieses Teils der Branche birgt ein besonderes Risiko, da KI-Prozesse einfach noch nicht standardisiert oder vollständig verstanden sind.

Wie jeder SaaS-Anbieter sind KI-Unternehmen durchaus in der Lage, branchenübliche Sicherheits- und Datenschutzstandards sowie Vor-Ort-Optionen bereitzustellen und ihre Dienste im Allgemeinen verantwortungsvoll bereitzustellen. Ich habe keinen Zweifel daran, dass die privaten Datenbanken und API-Aufrufe der Fortune 500-Kunden von OpenAI sehr streng geschützt sind! Sie müssen sich der Risiken, die mit dem Umgang mit vertraulichen Daten im Zusammenhang mit KI verbunden sind, ebenso oder sogar noch mehr bewusst sein. (Die Tatsache, dass OpenAI diesen Angriff nicht gemeldet hat, ist ihre Entscheidung, aber es schafft kein Vertrauen für ein Unternehmen, das dies dringend benötigt.)

Aber gute Sicherheitspraktiken ändern nichts am Wert dessen, was sie schützen sollen, oder an der Tatsache, dass böswillige Akteure und diverse Gegner nur darauf warten, sich Zutritt zu verschaffen. Sicherheit bedeutet nicht nur, die richtigen Einstellungen zu wählen oder die Software auf dem neuesten Stand zu halten – obwohl die Grundlagen natürlich auch wichtig sind. Es ist ein nie endendes Katz-und-Maus-Spiel, das ironischerweise jetzt durch die KI selbst noch verstärkt wird: Agenten und Angriffsautomaten untersuchen jeden Winkel der Angriffsflächen dieser Unternehmen.

Es besteht kein Grund zur Panik – Unternehmen mit Zugriff auf viele persönliche oder kommerziell wertvolle Daten sind seit Jahren mit ähnlichen Risiken konfrontiert und haben diese auch bewältigt. Doch KI-Unternehmen stellen ein neueres, jüngeres und potenziell attraktiveres Ziel dar als der übliche schlecht konfigurierte Unternehmensserver oder verantwortungslose Datenhändler. Selbst ein Hack wie der oben beschriebene, bei dem unseres Wissens nach keine ernsthaften Exfiltrationen stattgefunden haben, sollte jeden beunruhigen, der mit KI-Unternehmen Geschäfte macht. Sie haben sich die Zielscheibe auf den Rücken gemalt. Seien Sie nicht überrascht, wenn jemand oder alle versuchen, auf sie zu schießen.

tch-1-tech