Vana plant, Benutzern die Möglichkeit zu geben, ihre Reddit-Daten zu vermieten, um KI zu trainieren

Vana plant Benutzern die Moeglichkeit zu geben ihre Reddit Daten zu

Im Generativ KI-Boom, Daten sind das neue Öl. Warum sollten Sie also nicht Ihre eigenen verkaufen können?

Von großen Technologieunternehmen bis hin zu Startups lizenzieren KI-Hersteller E-Books, Bilder, Videos, Audiodateien und mehr von Datenbrokern, um leistungsfähigere (und rechtlich vertretbarere) KI-basierte Produkte zu entwickeln. Shutterstock hat Verträge mit Meta, Google, Amazon und Apple über die Bereitstellung von Millionen Bildern für das Modelltraining abgeschlossen, während OpenAI Vereinbarungen mit mehreren Nachrichtenorganisationen unterzeichnet hat, um seine Modelle in Nachrichtenarchiven zu trainieren.

In vielen Fällen haben die einzelnen Ersteller und Eigentümer dieser Daten keinen Cent des Geldes gesehen, das den Besitzer wechselte. Ein Startup rief an Vana will das ändern.

Anna Kazlauskas und Art Abal, die sich in einem Kurs am MIT Media Lab kennengelernt haben, der sich auf die Entwicklung von Technologie für Schwellenländer konzentrierte, gründeten Vana im Jahr 2021. Vor Vana studierte Kazlauskas Informatik und Wirtschaftswissenschaften am MIT und verließ das Unternehmen schließlich, um ein Fintech-Unternehmen zu gründen Automatisierungs-Startup, Iambiq, aus Y Combinator. Abal, ein ausgebildeter Unternehmensjurist, war Associate bei The Cadmus Group, einem in Boston ansässigen Beratungsunternehmen, bevor er Impact Sourcing beim Datenannotationsunternehmen Appen leitete.

Mit Vana machten sich Kazlauskas und Abal daran, eine Plattform aufzubauen, die es Benutzern ermöglicht, ihre Daten – einschließlich Chats, Sprachaufzeichnungen und Fotos – in Datensätzen zu „bündeln“, die dann für das generative KI-Modelltraining verwendet werden können. Sie möchten auch personalisiertere Erlebnisse schaffen – zum Beispiel eine tägliche motivierende Voicemail basierend auf Ihren Gesundheitszielen oder eine App zur Kunstgenerierung, die Ihre Stilpräferenzen versteht – indem sie öffentliche Modelle anhand dieser Daten verfeinern.

„Vanas Infrastruktur schafft tatsächlich einen benutzereigenen Datenschatz“, sagte Kazlauskas gegenüber Tech. „Dies geschieht, indem es Benutzern ermöglicht, ihre persönlichen Daten auf nicht verwahrte Weise zu aggregieren … Vana ermöglicht es Benutzern, KI-Modelle zu besitzen und ihre Daten in KI-Anwendungen zu verwenden.“

So geht es Vana stellt Entwicklern seine Plattform und API vor:

Die Vana-API verbindet die plattformübergreifenden persönlichen Daten eines Benutzers … um Ihnen die Personalisierung Ihrer Anwendung zu ermöglichen. Ihre App erhält sofortigen Zugriff auf das personalisierte KI-Modell oder die zugrunde liegenden Daten eines Benutzers, was das Onboarding vereinfacht und Bedenken hinsichtlich der Rechenkosten beseitigt … Wir sind der Meinung, dass Benutzer ihre persönlichen Daten aus Walled Gardens wie Instagram, Facebook und Google in Ihre Anwendung einbringen können sollten Sie können bereits beim ersten Mal, wenn ein Benutzer mit Ihrer Verbraucher-KI-Anwendung interagiert, ein erstaunliches personalisiertes Erlebnis schaffen.

Ein Konto bei Vana zu erstellen ist ziemlich einfach. Nachdem Sie Ihre E-Mail bestätigt haben, können Sie Daten an einen digitalen Avatar anhängen (z. B. Selfies, eine Beschreibung Ihrer Person und Sprachaufzeichnungen) und Apps erkunden, die auf der Plattform und den Datensätzen von Vana erstellt wurden. Die App-Auswahl reicht von Chatbots im ChatGPT-Stil über interaktive Storybooks bis hin zu einem Hinge-Profilgenerator.

Bildnachweis: Vana

Warum, fragen Sie sich vielleicht – würde in Zeiten zunehmenden Datenschutzbewusstseins und Ransomware-Angriffen jemals jemand seine persönlichen Daten einem anonymen Startup zur Verfügung stellen, geschweige denn einem von einem Risikokapital finanzierten Unternehmen? (Vana hat bisher 20 Millionen US-Dollar von Paradigm, Polychain Capital und anderen Geldgebern gesammelt.) Kann man einem gewinnorientierten Unternehmen wirklich vertrauen, dass es keine monetarisierbaren Daten, die ihm in die Hände fallen, missbraucht oder falsch behandelt?

Vana Reddit DAO

Bildnachweis: Vana

Als Antwort auf diese Frage betonte Kazlauskas, dass der Sinn und Zweck von Vana darin bestehe, dass Benutzer „die Kontrolle über ihre Daten zurückgewinnen“. Vana-Benutzer hätten die Möglichkeit, ihre Daten selbst zu hosten, anstatt sie auf den Servern von Vana zu speichern und zu kontrollieren, wie ihre Daten gespeichert werden Daten werden mit Apps und Entwicklern geteilt. Sie argumentierte außerdem, dass das Unternehmen keinen Anreiz habe, Benutzer auszubeuten, da Vana Geld verdiene, indem es Benutzern ein monatliches Abonnement (ab 3,99 $) in Rechnung stelle und eine „Datentransaktionsgebühr“ von Entwicklern erhebe (z. B. für die Übertragung von Datensätzen für das Training von KI-Modellen). die Fülle an persönlichen Daten, die sie mit sich bringen.

„Wir wollen Modelle erstellen, die den Benutzern gehören und von denen sie verwaltet werden und die alle ihre Daten beisteuern“, sagte Kazlauskas, „und es den Benutzern ermöglichen, ihre Daten und Modelle in jede Anwendung mitzunehmen.“

Nun, während Vana verkauft Benutzerdaten nicht an Unternehmen für das Training generativer KI-Modelle (so behauptet es zumindest), sondern möchte Benutzern ermöglichen, dies selbst zu tun, wenn sie möchten – beginnend mit ihren Reddit-Beiträgen.

Diesen Monat hat Vana das, was es nennt, auf den Markt gebracht Reddit Data DAO (Digital Autonomous Organization), ein Programm, das die Reddit-Daten mehrerer Benutzer (einschließlich ihres Karmas und ihres Beitragsverlaufs) bündelt und es ihnen ermöglicht, gemeinsam zu entscheiden, wie diese kombinierten Daten verwendet werden. Nachdem Sie sich mit einem Reddit-Konto angemeldet haben, senden Sie eine Anfrage Wenn sie ihre Daten an Reddit senden und diese Daten in die DAO hochladen, erhalten Benutzer das Recht, zusammen mit anderen Mitgliedern der DAO über Entscheidungen wie die Lizenzierung der kombinierten Daten an generative KI-Unternehmen für einen gemeinsamen Gewinn abzustimmen.

Es ist eine Art Antwort auf die jüngsten Schritte von Reddit, Daten auf seiner Plattform zu kommerzialisieren.

Bisher hat Reddit den Zugang zu Beiträgen und Communities für generative KI-Trainingszwecke nicht gesperrt. Doch Ende letzten Jahres, vor dem Börsengang, änderte das Unternehmen seinen Kurs. Seit der Richtlinienänderung hat Reddit über 203 Millionen US-Dollar an Lizenzgebühren von Unternehmen wie Google eingenommen.

„Die umfassende Idee [with the DAO is] um Benutzerdaten von den großen Plattformen zu befreien, die diese horten und monetarisieren wollen“, sagte Kazlauskas. „Dies ist eine Premiere und Teil unseres Bestrebens, Menschen dabei zu helfen, ihre Daten in benutzereigenen Datensätzen zusammenzuführen, um KI-Modelle zu trainieren.“

Es überrascht nicht, dass Reddit – das in keiner offiziellen Funktion mit Vana zusammenarbeitet – nicht erfreut über das DAO ist.

Reddit hat Vanas verboten Subreddit Der Diskussion über das DAO gewidmet. Und ein Reddit-Sprecher beschuldigte Vana, sein Datenexportsystem „ausgenutzt“ zu haben, das auf die Einhaltung von Datenschutzbestimmungen wie der DSGVO und dem California Consumer Privacy Act ausgelegt ist.

„Unsere Datenvereinbarungen ermöglichen es uns, Schutzmaßnahmen für solche Unternehmen festzulegen, sogar für öffentliche Informationen“, sagte der Sprecher gegenüber Tech. „Reddit gibt keine nicht öffentlichen, personenbezogenen Daten an kommerzielle Unternehmen weiter, und wenn Reddit-Benutzer einen Export ihrer Daten von uns beantragen, erhalten sie gemäß den geltenden Gesetzen nicht öffentliche, personenbezogene Daten von uns zurück.“ Direkte Partnerschaften zwischen Reddit und geprüften Organisationen mit klaren Bedingungen und Verantwortlichkeiten sind wichtig, und diese Partnerschaften und Vereinbarungen verhindern Missbrauch und Missbrauch der Daten von Personen.“

Aber hat Reddit wirklichen Grund zur Sorge?

Kazlauskas geht davon aus, dass das DAO so weit wachsen wird, dass es sich auf den Betrag auswirkt, den Reddit seinen Kunden für seine Daten berechnen kann. Das ist noch ein langer Weg, vorausgesetzt, es passiert jemals; Das DAO hat etwas mehr als 141.000 Mitglieder, ein winziger Bruchteil der 73 Millionen Nutzer von Reddit. Und einige dieser Mitglieder könnten Bots oder doppelte Konten sein.

Dann ist da noch die Frage, wie die Zahlungen, die das DAO möglicherweise von Datenkäufern erhält, gerecht verteilt werden können.

Derzeit vergibt das DAO „Tokens“ – Kryptowährungen – an Benutzer, die ihrem Reddit entsprechen Karma. Aber Karma ist möglicherweise nicht der beste Maßstab für qualitativ hochwertige Beiträge zum Datensatz – insbesondere in kleineren Reddit-Communities mit weniger Möglichkeiten, es zu verdienen.

Kazlauskas vertritt die Idee, dass Mitglieder des DAO sich dafür entscheiden könnten, ihre plattformübergreifenden und demografischen Daten zu teilen, was das DAO möglicherweise wertvoller macht und Anreize für Anmeldungen bietet. Dafür müssten die Nutzer aber auch noch mehr darauf vertrauen, dass Vana verantwortungsvoll mit ihren sensiblen Daten umgeht.

Persönlich glaube ich nicht, dass Vanas DAO eine kritische Masse erreichen wird. Es gibt viel zu viele Hindernisse, die dem Weg im Weg stehen. Ich denke jedoch, dass es nicht der letzte grundlegende Versuch sein wird, die Kontrolle über die Daten zu erlangen, die zunehmend zum Trainieren generativer KI-Modelle verwendet werden.

Startups wie Spawning arbeiten an Möglichkeiten, die es Kreativen ermöglichen, Regeln für die Verwendung ihrer Daten für Schulungen festzulegen, während Anbieter wie Getty Images, Shutterstock und Adobe weiterhin mit Vergütungssystemen experimentieren. Aber noch hat niemand den Code geknackt. Kann es überhaupt Sei geknackt? Angesichts der Halsabschneider Natur Für die generative KI-Branche ist das sicherlich eine große Herausforderung. Aber vielleicht findet jemand einen Weg – oder die Politik wird ihn erzwingen.



tch-1-tech