Die Gründer von Reworkd machten letztes Jahr auf GitHub mit AgentGPT Furore, einem kostenlosen Tool zum Erstellen von KI-Agenten, das innerhalb einer Woche mehr als 100.000 tägliche Benutzer gewann. Dies verschaffte ihnen einen Platz in der Sommer-Kohorte 2023 von Y Combinator, aber die Mitbegründer erkannten schnell, dass das Erstellen allgemeiner KI-Agenten zu umfassend war. Daher ist Reworkd jetzt ein Web-Scraping-Unternehmen, das speziell KI-Agenten zum Extrahieren strukturierter Daten aus dem öffentlichen Web erstellt.
AgentGPT stellte eine einfache Schnittstelle in einem Browser bereit, mit der Benutzer autonome KI-Agenten erstellen konnten. Bald schwärmten alle davon, dass Agenten die Zukunft der Computertechnik seien.
Als das Tool durchstartete, lebten Asim Shrestha, Adam Watkins und Srijan Subedi noch in Kanada und Reworkd existierte noch nicht. Der massive Zustrom von Benutzern überraschte sie. Subedi, heute COO von Reworkd, sagte, das Tool koste sie 2.000 Dollar pro Tag für API-Aufrufe. Aus diesem Grund mussten sie Reworkd erstellen und schnell Geld beschaffen. Einer der beliebtesten Anwendungsfälle für AgentGPT war die Erstellung von Web Scrapern, eine relativ einfache, aber umfangreiche Aufgabe, also konzentrierte sich Reworkd ausschließlich darauf.
Web Scraper sind im Zeitalter der KI von unschätzbarem Wert geworden. Der Hauptgrund, warum Organisationen im Jahr 2024 öffentliche Webdaten verwenden, ist der Aufbau von KI-Modellen, so Bright Datas aktuellster BerichtDas Problem ist, dass Web Scraper traditionell von Menschen erstellt werden und für bestimmte Webseiten angepasst werden müssen, was sie teuer macht. Aber die KI-Agenten von Reworkd können mit weniger menschlicher Beteiligung mehr vom Web scrapen.
Kunden können Reworkd eine Liste mit Hunderten oder sogar Tausenden von Websites zum Scrapen geben und dann die Datentypen angeben, an denen sie interessiert sind. Anschließend verwenden die KI-Agenten von Reworkd multimodale Codegenerierung, um diese in strukturierte Daten umzuwandeln. Die Agenten generieren einzigartigen Code, um jede Website zu scrapen und diese Daten zu extrahieren, damit die Kunden sie nach Belieben verwenden können.
Angenommen, Sie möchten Statistiken zu jedem NFL-Spieler, aber die Website jedes Teams hat ein anderes Layout. Anstatt für jede Website einen Scraper zu erstellen, erledigen die Agenten von Reworkd dies für Sie, indem sie Ihnen lediglich Links und eine Beschreibung der Daten geben, die Sie extrahieren möchten. Bei 32 Teams könnte Ihnen das Stunden sparen – bei 1.000 Teams könnten Sie jedoch Wochen sparen.
Reworkd hat neue 2,75 Millionen Dollar Startkapital von Paul Graham, AI Grant (Nat Friedmans und Daniel Gross‘ Startup-Beschleuniger), SV Angel, General Catalyst und Panache Ventures und anderen erhalten, teilte das Startup Tech exklusiv mit. Zusammen mit einer Pre-Seed-Investition von 1,25 Millionen Dollar im letzten Jahr von Panache Ventures und Y Combinator beläuft sich die bisher von Reworkd eingeworbene Gesamtfinanzierung auf 4 Millionen Dollar.
KI, die das Internet nutzen kann
Kurz nach der Gründung von Reworkd und dem Umzug nach San Francisco stellte das Team Rohan Pandey als Gründungsforschungsingenieur ein. Er lebt derzeit im AGI House SF, einem der beliebtesten Hackerhäuser der Bay Area für das KI-Zeitalter. Ein Investor beschrieb Pandey als „Ein-Personen-Forschungslabor innerhalb von Reworkd“.
„Wir sehen uns als die Krönung dieses 30 Jahre alten Traums vom Semantischen Web“, sagte Pandey in einem Interview mit Tech und bezog sich damit auf eine Vision des World Wide Web-Erfinders Tim Berners-Lee, in der Computer das gesamte Internet lesen können. „Auch wenn einige Websites keine Auszeichnung haben, können LLMs die Websites auf die gleiche Weise verstehen wie Menschen, sodass wir praktisch jede Website als API verfügbar machen können. In gewisser Weise ist Reworkd also wie die universelle API-Schicht für das Internet.“
Reworkd sagt, dass es in der Lage ist, die langen Datenanforderungen der Kunden zu erfassen. Das bedeutet, dass seine KI-Agenten besonders gut dafür geeignet sind, Tausende kleinerer öffentlicher Websites zu scrapen, die von großen Wettbewerbern oft übersprungen werden. Andere, wie Bright Data, haben bereits Scraper für große Websites wie LinkedIn oder Amazon entwickelt, aber es lohnt sich für einen Menschen möglicherweise nicht, für jede kleine Website einen Scraper zu erstellen. Reworkd geht auf dieses Problem ein, wirft aber möglicherweise weitere auf.
Was genau sind „öffentliche“ Webdaten?
Obwohl Web Scraper schon seit Jahrzehnten existieren, sind sie im KI-Zeitalter umstritten. Das ungehinderte Scraping riesiger Datenmengen hat OpenAI und Perplexity in rechtliche Schwierigkeiten gebracht: Nachrichten- und Medienorganisationen behaupten, die KI-Unternehmen hätten geistiges Eigentum hinter einer Paywall extrahiert und es ohne Bezahlung in großem Umfang reproduziert. Reworkd trifft Vorkehrungen, um diese Probleme zu vermeiden.
„Wir sehen darin eine Verbesserung der Zugänglichkeit öffentlich verfügbarer Informationen“, sagte Shrestha, Mitbegründer und CEO von Reworkd, in einem Interview mit Tech. „Wir lassen nur öffentlich verfügbare Informationen zu. Wir verwenden keine Anmeldesperren oder ähnliches.“
Reworkd geht noch einen Schritt weiter und sagt, dass es das Scraping von Nachrichten gänzlich vermeidet und bei der Zusammenarbeit mit den Partnern sehr wählerisch ist. Watkins, der CTO des Unternehmens, sagt, dass es anderswo bessere Tools zum Aggregieren von Nachrichteninhalten gebe und dass dies nicht ihr Schwerpunkt sei.
Als Beispiel dafür beschrieb Reworkd seine Zusammenarbeit mit Axis, einem Unternehmen, das Politikteams dabei hilft, staatliche Vorschriften einzuhalten. Axis nutzt die KI von Reworkd, um Daten aus Tausenden von Dokumenten zu staatlichen Vorschriften für viele Länder der Europäischen Union zu extrahieren. Axis trainiert und optimiert dann auf der Grundlage dieser Daten ein KI-Modell und bietet es seinen Kunden als Produkt an.
Ein Web-Scraping-Unternehmen zu gründen, könnte heutzutage als gefährliches Unterfangen gelten, meint Aaron Fiske, Partner der im Silicon Valley ansässigen Anwaltskanzlei Gunderson Dettmer. Die Landschaft ist derzeit noch recht unbeständig und es ist noch nicht klar, wie „öffentlich“ Webdaten für KI-Modelle wirklich sind. Fiske meint jedoch, dass der Ansatz von Reworkd, bei dem die Kunden entscheiden, welche Websites gescrapt werden, sie vor rechtlicher Haftung schützen könnte.
„Es ist, als hätten sie den Kopierer erfunden, und es gibt diesen einen Anwendungsfall für das Erstellen von Kopien, der sich als enorm wirtschaftlich wertvoll, aber auch rechtlich wirklich fragwürdig herausgestellt hat“, sagte Fiske in einem Interview mit Tech. „Es ist nicht so, dass Web Scraper, die KI-Unternehmen bedienen, unbedingt riskant sind, aber die Zusammenarbeit mit KI-Unternehmen, die wirklich daran interessiert sind, urheberrechtlich geschützte Inhalte zu sammeln, ist möglicherweise ein Problem.“
Deshalb ist Reworkd sehr vorsichtig, mit wem es zusammenarbeitet. Web Scraper haben bisher in Fällen potenzieller Urheberrechtsverletzungen im Zusammenhang mit KI die Schuld weitgehend verschleiert. Im Fall OpenAI weist Fiske darauf hin, dass die New York Times nicht den Web Scraper verklagt hat, der ihre Artikel gesammelt hat, sondern das Unternehmen, das ihre Arbeit angeblich reproduziert hat. Aber selbst dort muss noch entschieden werden, ob das, was OpenAI getan hat, wirklich eine Urheberrechtsverletzung war.
Es gibt weitere Beweise dafür, dass Web Scraper während des KI-Booms rechtlich unbedenklich sind. Ein Gericht entschied kürzlich zugunsten von Bright Data, nachdem das Unternehmen Facebook- und Instagram-Profile über das Internet gescrapt hatte. Ein Beispiel in dem Gerichtsverfahren war ein Datensatz mit 615 Millionen Datensätzen von Instagram-Benutzerdaten, den Bright Data für 860.000 Dollar verkauft. Meta verklagte das Unternehmen und behauptete, dies verstoße gegen seine Nutzungsbedingungen. Ein Gericht entschied jedoch, dass diese Daten öffentlich und daher zum Scrapen verfügbar seien.
Investoren glauben, dass Reworkd mit den Großen mithalten kann
Reworkd hat als erste Investoren große Namen angezogen, von Y Combinator und Paul Graham bis hin zu Daniel Gross und Nat Friedman. Einige Investoren sagen, dies liege daran, dass sich Reworkds Technologie mit der Einführung neuer Modelle verbessern und billiger werden werde. Das Startup sagt, dass OpenAIs GPT-4o derzeit das Beste für die multimodale Codegenerierung sei und dass viele der Technologien von Reworkd bis vor wenigen Monaten noch nicht möglich gewesen seien.
„Wenn Sie versuchen, mit dem Tempo des technologischen Fortschritts zu konkurrieren – und nicht darauf aufzubauen –, dann werden Sie es als Gründer meiner Meinung nach schwer haben“, sagte Viet Le von General Catalyst gegenüber Tech. „Reworkd hat die Einstellung, seine Lösung auf dem Tempo des Fortschritts aufzubauen.“
Reworkd entwickelt KI-Agenten, die eine bestimmte Marktlücke schließen: Unternehmen benötigen mehr Daten, da sich die KI schnell weiterentwickelt. Da immer mehr Unternehmen maßgeschneiderte KI-Modelle speziell für ihr Geschäft entwickeln, wird Reworkd voraussichtlich mehr Kunden gewinnen. Die Feinabstimmung von Modellen erfordert qualitativ hochwertige, strukturierte Daten – und zwar jede Menge davon.
Reworkd sagt, sein Ansatz sei „selbstheilend“, was bedeutet, dass seine Web Scraper nicht aufgrund einer Aktualisierung einer Webseite ausfallen. Das Startup behauptet, Halluzinationen zu vermeiden, die traditionell mit KI-Modellen verbunden sind, da die Agenten von Reworkd Code generieren, um eine Website zu scrapen. Es ist möglich, dass die KI einen Fehler macht und die falschen Daten von einer Website abruft, aber das Team von Reworkd hat Bananas-lyzerein Open-Source-Evaluierungsframework, um dessen Genauigkeit regelmäßig zu beurteilen.
Reworkd hat keine große Gehaltsliste – das Team besteht nur aus vier Personen –, muss aber erhebliche Inferenzkosten für den Betrieb seiner KI-Agenten auf sich nehmen. Das Startup erwartet, dass seine Preise mit sinkenden Kosten zunehmend wettbewerbsfähiger werden. OpenAI hat gerade GPT-4o mini herausgebracht, eine kleinere Version seines branchenführenden Modells mit wettbewerbsfähigen Benchmarks. Innovationen wie diese könnten Reworkd wettbewerbsfähiger machen.
Paul Graham und AI Grant antworteten nicht auf die Bitte von Tech um einen Kommentar.