Wenn Sie ChatGPT Search oder Perplexity verwendet haben, wissen Sie, dass die Möglichkeit, das Web zu durchsuchen und Zitate online zu erhalten, diese KI-Chatbots erheblich verbessert. Die Ergebnisse sind besser, wenn sie zeitnahe Informationen enthalten, und die Websuche kann dies auch tun reduzieren sogenannte Halluzinationen (also wenn eine generative KI falsche Informationen ausgibt).
Deshalb französisches Startup Verknüpfung entwickelt eine API, die es Entwicklern ermöglicht, auf Webinhalte aus erstklassigen, vertrauenswürdigen Quellen zuzugreifen und die Ergebnisse an ein großes Sprachmodell (LLM) zu übergeben, um dessen Antworten anzureichern. Viele KI-Entwickler nennen diesen Workflow Retrieval-Augmented Generation (oder RAG).
Noch wichtiger ist, dass die Zukunft der Scraping-Bots ungewiss ist. Wenn es keine bereits bestehende finanzielle Vereinbarung zwischen Content-Herausgebern und den Webseiten-Scraping-Entitäten gibt, stehlen diese Bots ohne Bezahlung Inhalte aus dem offenen Web, und viele Menschen sind mit diesem Deal nicht zufrieden – was die behördliche Prüfung von KI-Schulungen verschärft.
Inzwischen gibt es auch hochkarätige Rechtsfälle in diesem Zusammenhang, wie zum Beispiel den laufenden Rechtsstreit zwischen OpenAI, dem Hersteller von ChatGPT, und der New York Times – die Situation rund um Web Scraping könnte sich also in naher Zukunft ändern. Aus diesem Grund hat OpenAI mehrjährige Lizenzverträge für Inhalte mit großen Verlagen wie AP, Axel Springer, Condé Nast, El País, der Financial Times, Le Monde und anderen unterzeichnet.
„Wir haben das Unternehmen zu der Zeit gegründet, als OpenAI Geschäfte mit Nachrichtenquellen abschloss … zu Schulungs- oder Inferenzzwecken, um die Antworten von OpenAI-Modellen und ihren Produkten zu erweitern. Und wir dachten: „Okay, das ist großartig, denn wir haben endlich KI-Unternehmen, die ihre Quellen bezahlen“, sagte Philippe Mizrahi, Mitbegründer und CEO von Linkup, gegenüber Tech und erläuterte, was die Gründer dazu bewogen hat, ein Unternehmen zu gründen, mit dem sie KI-Entwickler verbinden können Inhaltsanbieter zum – hoffentlich – gegenseitigen Nutzen.
Derzeit stehen Content-Publisher vor der schwierigen Entscheidung, was sie gegen den Datenhunger von GenAI tun sollen. Sie können Web Scraper mithilfe der (nicht rechtsverbindlichen) Metadatendatei robots.txt blockieren (die angibt, ob eine Website zum Trainieren eines KI-Modells verwendet werden kann oder nicht). Darüber hinaus können sie KI-Unternehmen verklagen, die ihrer Meinung nach ihr Urheberrecht verletzt haben. Alternativ könnten sie Bots erlauben, ihre Inhalte frei zu indizieren (äh, YOLO?). Oder sie können Inhalte an KI-Entwickler lizenzieren, um eine Entschädigung für ihr geistiges Eigentum zu erhalten.
Aber es gibt Tausende von KI-Unternehmen (oder Technologieunternehmen, die KI nutzen), die nicht über die Größe und Reichweite von OpenAI verfügen. Gleichzeitig ist das Tolle am Web, dass es eine lange Liste von Content-Publishern gibt. Dies bedeutet jedoch, dass ein kleiner Content-Publisher in der Regel nicht über ausreichende finanzielle Mittel verfügt, um eine Klage einzureichen. Es bedeutet auch, dass es schwierig sein wird, von einem Scraping-Modell zu einem Lizenzmodell für Millionen von Websites zu wechseln.
Deshalb ist Linkup nicht nur eine technische Lösung. Es ist ein Marktplatz; ein Vermittler zwischen Inhaltsverlegern und Unternehmen, die ihre LLM-Antworten durch Webinhalte ergänzen möchten.
Linkup schließt Inhaltslizenzverträge mit Verlagen ab und integriert sich in deren CMS, sodass Inhalte ohne Scraping von Verlagen abgerufen werden können. Linkup bezahlt dann Content-Partner basierend darauf, wie oft Linkup-Kunden auf ihre Inhalte zugreifen.
„Wir zielen wirklich auf Anwendungen ab, die KI in ihren eigenen Produkten implementieren“, sagte Mizrahi. „Der typische Anwendungsfall ist also, dass ich eine KI-Anwendung mit einem Modell von Mistral oder OpenAI erstelle. Ich baue meine eigene Pipeline auf, aber ich muss diese Pipeline mit externen Informationen anreichern.“
Nebenbei bemerkt: Während ChatGPT im Internet surfen kann, ist dies bei GPT-Modellen nicht möglich. OpenAI bietet sowohl eine äußerst beliebte Anwendung (ChatGPT) als auch LLMs, die Entwickler mit einer API (GPT) verwenden können. Aber die Websuche ist eine ChatGPT-Funktion.
„Es gibt ein Beispiel, das mir gefällt: Einer unserer Kunden hat eine interne Anwendung für seine Vertriebsmitarbeiter erstellt“, erzählte uns auch Mizrahi. „Einerseits haben sie alle Vorteile ihrer eigenen Produkte aufgelistet. Und dank uns erhalten sie aktuelle, qualitativ hochwertige Informationen über ihre Interessenten und übertragen diese in ein Mistral LLM. Und das LLM von Mistral wird eine Art Verkaufsgespräch für die Vertriebsmitarbeiter generieren, das sie vor sich haben, wenn sie mit den Kundenkontakten telefonieren.“
Zunächst entschied sich Linkup, sich auf Unternehmens- und Geschäftsinformationen zu konzentrieren. Neben Nachrichten-Websites arbeitet das Startup auch mit Wissensdatenbanken – man denke an Statista, Xerfi oder andere Ressourcen in der gleichen Richtung.
Es ist nicht das einzige Startup, das mit Lizenzverträgen hinter den Kulissen daran arbeitet, Premium-Inhalte für LLMs bereitzustellen. Der sichtbarste Konkurrent ist ScalePostein Startup, das funktioniert mit Perplexity um seine Lizenzverträge mit Verlagen zu beschleunigen.
Linkup hat vor einigen Monaten eine Seed-Runde in Höhe von 3 Millionen Euro (3,2 Millionen US-Dollar zu aktuellen Wechselkursen) von Axeleo Capital, Motier Ventures, Seedcamp und hundert Business Angels abgeschlossen. Das Startup beschäftigt derzeit etwa zehn Mitarbeiter und plant, im nächsten Jahr weitere zehn Mitarbeiter einzustellen.