LAION, die deutsche Forschungsorganisation, die die Daten erstellt hat, die zum Trainieren von Stable Diffusion und anderen generativen KI-Modellen verwendet werden, hat freigegeben ein neuer Datensatz, der angeblich „gründlich von bekannten Links zu mutmaßlichem Material über sexuellen Kindesmissbrauch (CSAM) bereinigt“ wurde.
Der neue Datensatz, Re-LAION-5B, ist eigentlich eine Neuveröffentlichung eines alten Datensatzes, LAION-5B – allerdings mit „Korrekturen“, die auf Empfehlungen der gemeinnützigen Internet Watch Foundation, Human Rights Watch, des Canadian Center for Child Protection und des inzwischen aufgelösten Stanford Internet Observatory basieren. Er steht in zwei Versionen zum Download bereit, Re-LAION-5B Research und Re-LAION-5B Research-Safe (das auch zusätzlichen NSFW-Inhalt entfernt), die beide nach Tausenden von Links zu bekanntem – und „wahrscheinlichem“ – CSAM gefiltert wurden, sagt LAION.
„LAION hat sich von Anfang an dazu verpflichtet, illegale Inhalte aus seinen Datensätzen zu entfernen und hat von Anfang an geeignete Maßnahmen ergriffen, um dies zu erreichen“, schrieb LAION in einem Blog-Beitrag„LAION hält sich strikt an den Grundsatz, rechtswidrige Inhalte nach Bekanntwerden schnellstmöglich zu entfernen.“
Wichtig zu beachten ist, dass die Datensätze von LAION keine Bilder enthalten – und nie enthalten haben. Vielmehr handelt es sich um Indizes mit Links zu Bildern und Bild-Alt-Texten, die LAION kuratiert hat und die alle von einem anders Datensatz – der Common Crawl – der gescrapten Sites und Webseiten.
Die Veröffentlichung von Re-LAION-5B erfolgte nach einer Untersuchung des Stanford Internet Observatory im Dezember 2023, die ergab, dass LAION-5B – genauer gesagt eine Untergruppe namens LAION-5B 400M – mindestens 1.679 Links zu illegalen Bildern enthielt, die aus Social-Media-Posts und beliebten Websites für Erwachsene kopiert wurden. Dem Bericht zufolge enthielt 400M auch Links zu „einer breiten Palette unangemessener Inhalte, darunter pornografische Bilder, rassistische Beleidigungen und schädliche soziale Stereotypen“.
Während die Stanford-Co-Autoren des Berichts anmerkten, dass es schwierig sein würde, die anstößigen Inhalte zu entfernen und dass die Präsenz von CSAM nicht unbedingt die Ergebnisse der anhand des Datensatzes trainierten Modelle beeinflusst, teilte LAION mit, dass es LAION-5B vorübergehend offline nehmen würde.
Der Stanford-Bericht empfahl, dass die auf LAION-5B trainierten Modelle „veraltet und die Verbreitung, wo möglich, eingestellt werden sollten“. Vielleicht damit in Zusammenhang steht das KI-Startup Runway vor kurzem abgenommen sein Stable Diffusion 1.5-Modell von der KI-Hosting-Plattform Hugging Face; wir haben das Unternehmen um weitere Informationen gebeten. (Runway ist 2023 eine Partnerschaft mit Stability AI eingegangen, dem Unternehmen hinter Stable Diffusion, um beim Training des ursprünglichen Stable Diffusion-Modells zu helfen.)
Über den neuen Re-LAION-5B-Datensatz, der rund 5,5 Milliarden Text-Bild-Paare enthält und unter einer Apache 2.0-Lizenz veröffentlicht wurde, sagt LAION, dass die Metadaten von Dritten verwendet werden können, um vorhandene Kopien von LAION-5B zu bereinigen, indem die entsprechenden illegalen Inhalte entfernt werden.
LAION betont, dass seine Datensätze für Forschungszwecke und nicht für kommerzielle Zwecke bestimmt sind. Aber wenn man die Geschichte als Indiz nimmt, wird das einige Organisationen nicht abschrecken. Neben Stability AI verwendete Google einst LAION-Datensätze, um seine bildgenerierenden Modelle zu trainieren.
„Insgesamt 2.236 Links [to suspected CSAM] wurden entfernt, nachdem sie mit den von unseren Partnern bereitgestellten Listen von Link- und Bild-Hashes abgeglichen wurden“, fuhr LAION in dem Beitrag fort. „Diese Links umfassen auch 1008 Links, die im Bericht des Stanford Internet Observatory im Dezember 2023 gefunden wurden … Wir fordern alle Forschungslabore und Organisationen, die noch alte LAION-5B-Datensätze verwenden, dringend auf, so schnell wie möglich auf Re-LAION-5B-Datensätze umzusteigen.“