Fairgen „verbessert“ Umfrageergebnisse durch synthetische Daten und KI-generierte Antworten

Seit jeher werden Umfragen eingesetzt, um Erkenntnisse über Bevölkerungsgruppen, Produkte und die öffentliche Meinung zu gewinnen. Und obwohl sich die Methoden im Laufe der Jahrtausende verändert haben mögen, ist eines gleich geblieben: Der Bedarf an Menschen, und zwar an vielen Menschen.

Aber was ist, wenn Sie nicht genügend Leute finden, um eine ausreichend große Stichprobengruppe aufzubauen, um aussagekräftige Ergebnisse zu erzielen? Oder was wäre, wenn Sie möglicherweise genügend Leute finden könnten, aber Budgetbeschränkungen die Anzahl der Leute begrenzen, die Sie finden und interviewen können?

Das ist wo Fairgen möchte helfen. Das israelische Startup hat heute eine Plattform gestartet, die „statistische KI“ nutzt, um synthetische Daten zu generieren, die angeblich genauso gut sind wie die Realität. Das Unternehmen kündigt außerdem eine neue Spendenaktion in Höhe von 5,5 Millionen US-Dollar von Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia und einer Handvoll Angel-Investoren an, wodurch sich die seit der Gründung insgesamt gesammelten Mittel auf 8 Millionen US-Dollar belaufen.

„Gefälschte Daten“

Daten könnten die sein Lebenselixier der KI, aber es ist seit jeher auch der Eckpfeiler der Marktforschung. Wenn also die beiden Welten kollidieren, wie es in Fairgens Welt der Fall ist, wird der Bedarf an Qualitätsdaten etwas größer.

Fairgen wurde 2021 in Tel Aviv, Israel, gegründet und konzentrierte sich zuvor auf Bekämpfung von Voreingenommenheit in der KI. Doch Ende 2022 stellte das Unternehmen auf ein neues Produkt um: Fairboostdas jetzt aus der Beta heraus gestartet wird.

Fairboost verspricht, einen kleineren Datensatz um das Dreifache zu „verstärken“ und so detailliertere Einblicke in Nischen zu ermöglichen, die sonst möglicherweise zu schwierig oder zu teuer zu erreichen wären. Auf diese Weise können Unternehmen für jeden Datensatz, den sie auf die Fairgen-Plattform hochladen, ein tiefgreifendes maschinelles Lernmodell mit statistischen KI-Lernmustern über die verschiedenen Umfragesegmente hinweg trainieren.

Das Konzept der „synthetischen Daten“ – Daten, die künstlich erstellt wurden und nicht aus realen Ereignissen stammen – ist nicht neu. Seine Wurzeln reichen bis in die Anfänge der Informatik zurück, als es zum Testen von Software und Algorithmen sowie zur Simulation von Prozessen eingesetzt wurde. Aber synthetische Daten, wie wir sie heute verstehen, haben ein Eigenleben entwickelt, insbesondere mit dem Aufkommen des maschinellen Lernens, wo sie zunehmend zum Trainieren von Modellen eingesetzt werden. Wir können sowohl Probleme der Datenknappheit als auch Datenschutzbedenken angehen, indem wir künstlich generierte Daten verwenden, die keine sensiblen Informationen enthalten.

Fairgen ist das neueste Startup, das synthetische Daten auf die Probe stellt, und sein Hauptziel ist die Marktforschung. Es ist erwähnenswert, dass Fairgen keine Daten aus dem Nichts produziert oder Millionen historischer Umfragen in einen KI-gestützten Schmelztiegel wirft – Marktforscher müssen eine Umfrage für eine kleine Stichprobe ihres Zielmarkts durchführen, und daraus wiederum Fairgen legt Muster fest, um die Stichprobe zu erweitern. Das Unternehmen gibt an, dass es eine mindestens zweifache Steigerung gegenüber der Originalprobe garantieren kann, aber im Durchschnitt kann eine dreifache Steigerung erreicht werden.

Auf diese Weise kann Fairgen möglicherweise feststellen, dass jemand einer bestimmten Altersgruppe und/oder eines bestimmten Einkommensniveaus eher dazu neigt, eine Frage auf eine bestimmte Art und Weise zu beantworten. Oder kombinieren Sie eine beliebige Anzahl von Datenpunkten, um sie aus dem Originaldatensatz zu extrapolieren. Es geht im Wesentlichen darum, das zu generieren, was Fairgen-Mitbegründer und CEO ist Samuel Cohen sagt, dass es „stärkere, robustere Datensegmente mit einer geringeren Fehlerquote“ gibt.

„Die wichtigste Erkenntnis war, dass die Menschen immer vielfältiger werden – Marken müssen sich daran anpassen und ihre Kundensegmente verstehen“, erklärte Cohen gegenüber Tech. „Die Segmente sind sehr unterschiedlich – die Generation Z denkt anders als ältere Menschen. Und um dieses Marktverständnis auf Segmentebene haben zu können, kostet es viel Geld, erfordert viel Zeit und operative Ressourcen. Und da wurde mir klar, dass der Schmerzpunkt darin lag. Wir wussten, dass synthetische Daten dabei eine Rolle spielen.“

Eine offensichtliche Kritik – eine, mit der das Unternehmen zu kämpfen hat – ist, dass dies alles wie eine gewaltige Abkürzung klingt, um ins Feld zu gehen, echte Menschen zu interviewen und echte Meinungen einzuholen.

Sicherlich sollte jede unterrepräsentierte Gruppe besorgt sein, dass ihre echten Stimmen durch, nun ja, falsche Stimmen ersetzt werden?

„Jeder einzelne Kunde, mit dem wir im Forschungsbereich gesprochen haben, hat große blinde Flecken – absolut schwer zu erreichende Zielgruppen“, sagte Fairgens Wachstumsleiter, Fernando Zatz, sagte Tech. „Sie verkaufen eigentlich keine Projekte, weil nicht genügend Leute zur Verfügung stehen, insbesondere in einer zunehmend vielfältigen Welt, in der es eine starke Marktsegmentierung gibt. Manchmal können sie nicht in bestimmte Länder einreisen; Sie können nicht auf bestimmte Bevölkerungsgruppen eingehen, sodass sie tatsächlich bei Projekten verlieren, weil sie ihre Quoten nicht erreichen können. Sie haben eine Mindestanzahl [of respondents]Und wenn sie diese Zahl nicht erreichen, verkaufen sie die Erkenntnisse nicht.“

Fairgen ist nicht das einzige Unternehmen, das generative KI im Bereich der Marktforschung einsetzt. Qualtrics gab letztes Jahr bekannt, dass es über einen Zeitraum von vier Jahren 500 Millionen US-Dollar investiert, um generative KI auf seine Plattform zu bringen, allerdings mit einem inhaltlicher Fokus auf qualitative Forschung. Es ist jedoch ein weiterer Beweis dafür, dass synthetische Daten vorhanden sind und bleiben werden.

Aber die Validierung der Ergebnisse wird eine wichtige Rolle dabei spielen, die Menschen davon zu überzeugen, dass es sich hierbei um die Realität handelt und nicht um eine Kostensenkungsmaßnahme, die zu suboptimalen Ergebnissen führt. Fairgen tut dies, indem es einen „echten“ Sample-Boost mit einem „synthetischen“ Sample-Boost vergleicht – es nimmt eine kleine Stichprobe des Datensatzes, extrapoliert sie und stellt sie der Realität gegenüber.

„Bei jedem einzelnen Kunden, den wir registrieren, führen wir genau denselben Test durch“, sagte Cohen.

Statistisch gesehen

Cohen hat einen MSc in Statistikwissenschaften von der Universität Oxford und einen Doktortitel in maschinellem Lernen vom Londoner UCL, wozu er unter anderem neun Monate lang als Forschungswissenschaftler bei Meta tätig war.

Einer der Mitbegründer des Unternehmens ist Vorsitzender Benny Schnaiderder zuvor im Bereich Unternehmenssoftware tätig war, mit vier Exits auf seinem Namen: Ravello ging für angeblich 500 Millionen US-Dollar an Oracle im Jahr 2016; Qumranet zu Red Hat für 107 Millionen US-Dollar im Jahr 2008; P-Cube zu Cisco für 200 Millionen Dollar in 2004; und Pentacom zu Cisco für 118 $ im Jahr 2000.

Und dann gibt es noch Emmanuel CandèsProfessor für Statistik und Elektrotechnik an der Stanford University, der als leitender wissenschaftlicher Berater von Fairgen fungiert.

Dieses geschäftliche und mathematische Rückgrat ist ein wichtiges Verkaufsargument für ein Unternehmen, das die Welt davon überzeugen möchte, dass gefälschte Daten bei richtiger Anwendung genauso gut sein können wie echte Daten. Auf diese Weise können sie auch die Schwellenwerte und Grenzen ihrer Technologie klar erklären – wie groß die Proben sein müssen, um die optimalen Boosts zu erzielen.

Laut Cohen benötigen sie idealerweise mindestens 300 echte Befragte für eine Umfrage, und Fairboost kann damit die Segmentgröße steigern, die nicht mehr als 15 % der breiteren Umfrage ausmacht.

„Unter 15 % können wir einen durchschnittlichen dreifachen Anstieg garantieren, nachdem wir ihn mit Hunderten von parallelen Tests validiert haben“, sagte Cohen. „Statistisch gesehen sind die Zuwächse über 15 % weniger dramatisch. Die Daten weisen bereits ein gutes Konfidenzniveau auf, und unsere synthetischen Befragten können diese nur potenziell erreichen oder eine geringfügige Steigerung bewirken. Auch in geschäftlicher Hinsicht gibt es über 15 % keinen Problempunkt – Marken können bereits von diesen Gruppen lernen; Sie stecken nur auf der Nischenebene fest.“

Der No-LLM-Faktor

Es ist erwähnenswert, dass Fairgen keine großen Sprachmodelle (LLMs) verwendet und seine Plattform keine „einfachen englischen“ Antworten à la ChatGPT generiert. Der Grund dafür ist, dass ein LLM Erkenntnisse aus unzähligen anderen Datenquellen außerhalb der Parameter der Studie nutzt, was die Wahrscheinlichkeit erhöht, dass Verzerrungen entstehen, die mit quantitativer Forschung nicht vereinbar sind.

Bei Fairgen dreht sich alles um statistische Modelle und tabellarische Daten, und das Training basiert ausschließlich auf den Daten, die im hochgeladenen Datensatz enthalten sind. Dies ermöglicht es Marktforschern effektiv, neue und synthetische Befragte zu generieren, indem sie aus angrenzenden Segmenten der Umfrage extrapolieren.

„Wir verwenden keine LLMs aus einem ganz einfachen Grund, nämlich weil wir viele davon vorab trainieren müssten [other] Umfragen würden nur Fehlinformationen vermitteln“, sagte Cohen. „Weil es Fälle gibt, in denen bei einer anderen Umfrage etwas gelernt wurde, und das wollen wir nicht. Es geht um Zuverlässigkeit.“

Was das Geschäftsmodell betrifft, wird Fairgen als SaaS verkauft, wobei Unternehmen ihre Umfragen in einem beliebigen strukturierten Format (.CSV oder .SAV) auf die cloudbasierte Plattform von Fairgen hochladen. Laut Cohen dauert es je nach Anzahl der Fragen bis zu 20 Minuten, das Modell anhand der bereitgestellten Umfragedaten zu trainieren. Der Benutzer wählt dann ein „Segment“ (eine Teilmenge der Befragten mit bestimmten Merkmalen) aus – z. B. „Gen Z arbeitet in Industrie X“ – und dann liefert Fairgen eine neue Datei, die identisch zur ursprünglichen Schulungsdatei strukturiert ist und genau dieselben Fragen enthält , nur neue Zeilen.

Fairgen wird verwendet von BVA und französisches Meinungsforschungs- und Marktforschungsunternehmen IFOP, die die Technologie des Startups bereits in ihre Dienste integriert haben. IFOP, was ein bisschen so ist Gallup in den USA nutzt Fairgen für Umfragezwecke bei den Europawahlen, obwohl Cohen glaubt, dass es später in diesem Jahr auch für die US-Wahlen eingesetzt werden könnte.

„IFOP sind im Grunde unser Gütesiegel, denn es gibt sie schon seit etwa 100 Jahren“, sagte Cohen. „Sie haben die Technologie validiert und waren unser ursprünglicher Designpartner. Wir testen auch einige der größten Marktforschungsunternehmen der Welt oder arbeiten bereits mit ihnen zusammen, worüber ich noch nicht sprechen darf.“

tch-1-tech