MLCommons und Umarmungen stehen dem Team auf, um einen massiven Sprachdatensatz für die KI -Forschung zu veröffentlichen

MLCommons, eine gemeinnützige AI -Sicherheitsarbeitsgruppe, hat sich mit der AI -Dev -Plattform zusammengetan, die das Gesicht umarmt, um eine der weltweit größten Sammlungen von öffentlichen Sprachaufzeichnungen für die KI -Forschung zu veröffentlichen.

Der Datensatz, genannt Unbewegte Rede der Menschenenthält mehr als eine Million Audio, die mindestens 89 verschiedene Sprachen überspannt. MLCommons sagt, es sei motiviert, es durch den Wunsch zu schaffen, F & E in „verschiedenen Bereichen der Sprachtechnologie“ zu unterstützen.

„Die Unterstützung breiterer Forschung für natürliche Sprachverarbeitung für andere Sprachen als Englisch trägt dazu bei, Kommunikationstechnologien für mehr Menschen weltweit zu bringen“ Blog -Beitrag Donnerstag. „Wir erwarten, dass die Forschungsgemeinschaft mehreren Möglichkeiten für die Verbesserung der Sprachmodelle mit niedriger Ressourcen, die Spracherkennung über verschiedene Akzente und Dialekte und neuartige Anwendungen in der Sprachsynthese weiterentwickelt und entwickelt.“

Es ist zwar ein bewundernswertes Ziel. KI -Datensätze wie die Rede von unbeaufsichtigter Menschen können jedoch Risiken für die Forscher eingehen, die sie verwenden.

Voreingenommene Daten sind eines dieser Risiken. Die Aufnahmen in der Rede von unbeaufsichtigtem Volk stammten von archive.org, dem gemeinnützigen Organisation, der am besten für das Wayback -Maschinen -Web -Archiv -Tool bekannt ist. Weil viele von Archive.orgs Mitwirkenden englischsprachige-und amerikanische-fast alle Aufnahmen in unbeaufsichtigter Sprache von unbeaufsichtigtem Volk sind, sind in englischer Sprache von amerikanischem Akzent. gemäß dem Readme auf der offiziellen Projektseite.

Das bedeutet, dass KI -Systeme wie Spracherkennung und Sprachsynthesizer ohne sorgfältige Filterung, die auf unbeaufsichtigte Rede der Menschen geschult wurden, einige der gleichen Vorurteile aufweisen können. Sie könnten zum Beispiel Schwierigkeiten haben, Englisch zu transkribieren, die von einem nicht einheimischen Sprecher gesprochen werden, oder Probleme haben, synthetische Stimmen in anderen Sprachen als Englisch zu generieren.

Die Rede von unbeaufsichtigter Menschen könnte auch Aufzeichnungen von Personen enthalten, die nicht wissen, dass ihre Stimmen für KI -Forschungszwecke verwendet werden – einschließlich kommerzieller Anwendungen. Während MLCommons sagt, dass alle Aufzeichnungen im Datensatz öffentlich zugänglich sind oder im Rahmen der Creative Commons -Lizenzen verfügbar sind, wurden die Möglichkeit Fehler gemacht.

Nach einer MIT -AnalyseHunderte von öffentlich verfügbaren KI -Schulungsdatensätzen fehlen Lizenzinformationen und enthalten Fehler. Befürworter von Schöpfer wie Ed Newton-Rex, CEO von AI Ethics-ausgerichteten gemeinnützigen Organisationen, hat den Fall gemacht .

„Viele Schöpfer (z. B. Squarespace -Benutzer) haben keine sinnvolle Möglichkeit, sich zu entscheiden“, “ Newton-Rex schrieb in einem Beitrag auf X letzten Juni. „Für Schöpfer, die dürfen Opt out, es gibt mehrere überlappende Opt-out-Methoden, die (1) unglaublich verwirrend und (2) in ihrer Abdeckung unglaublich unvollständig sind. Selbst wenn es ein perfektes universelles Opt-out gibt, wäre es sehr unfair, die Schöpfer zu belasten, da generative KI ihre Arbeit verwendet, um mit ihnen zu konkurrieren-viele würden einfach nicht erkennen, dass sie sich abmelden könnten. “

MLCommons sagt, dass es sich zur Aktualisierung, Aufrechterhaltung und Verbesserung der Qualität der Sprache der unbeaufsichtigten Menschen entscheidet. Angesichts der potenziellen Mängel würde es den Entwicklern jedoch schwerwiegende Vorsicht wenden.

tch-1-tech