Harvard und Google veröffentlichen 1 Million gemeinfreie Bücher als KI-Trainingsdatensatz

KI-Trainingsdaten haben einen hohen Preis und eignen sich am besten für finanzstarke Technologieunternehmen. Deshalb die Harvard University plant die Veröffentlichung Ein Datensatz, der etwa 1 Million gemeinfreie Bücher verschiedener Genres, Sprachen und Autoren wie Dickens, Dante und Shakespeare umfasst, die aufgrund ihres Alters nicht mehr urheberrechtlich geschützt sind.

Der neue Datensatz ist noch nicht verfügbar und es ist nicht klar, wann und wie er veröffentlicht wird. Es enthält jedoch Bücher, die aus Googles langjährigem Buchscanprojekt Google Books stammen, und daher wird Google an der Veröffentlichung „dieser Schatzkammer weit und breit“ beteiligt sein.

Harvard neckte zuerst das Institutionelle Dateninitiative (IDI) schon im Märzin dem er seine Pläne darlegt, einen „vertrauenswürdigen Kanal für Rechtsdaten für KI“ zu schaffen. Allerdings hat man bis dahin nicht viel davon gehört heute offizieller Startmit der Bestätigung, dass die IDI finanzielle Unterstützung von Microsoft und OpenAI beinhaltet.

Der Geschäftsführer der IDI Greg Leppert sagt, der Datensatz sei darauf ausgelegt, „gleiche Wettbewerbsbedingungen“ zu schaffen, indem ein so großer Datensatz für jeden geöffnet wird – von Forschungslabors bis hin zu KI-Startups –, der seine großen Sprachmodelle (LLMs) trainieren möchte.

tch-1-tech