Microsoft verstärkt KI mit neuen Bing-Funktionen

Microsoft verstaerkt KI mit neuen Bing Funktionen

Microsoft macht sich auf den Weg über die nächste Phase der Expansion von Bing. Und – keine Überraschung – es dreht sich stark um KI.

Bei einer Preview-Veranstaltung diese Woche in New York City gaben Microsoft-Manager, darunter Yusuf Mehdi, CVP und Consumer Chief Marketing Officer, Pressevertretern, darunter diesem Reporter, einen Einblick in die Bandbreite der Funktionen, die in den nächsten Tagen und Wochen auf Bing zukommen werden und Monate.

Sie erfinden das Rad nicht so sehr neu, sondern bauen auf dem auf, was Microsoft in den letzten drei Monaten oder so in die Bing-Erfahrung eingebracht hat. Seit dem Start von Bing Chat, seinem KI-gestützten Chatbot, der auf den Modellen GPT-4 und DALL-E 2 von OpenAI basiert, sagt Microsoft, dass Besucher von Bing – das auf über 100 Millionen aktive Benutzer pro Tag angewachsen ist – an über einer halben Milliarde Chats teilgenommen haben und über 200 Millionen Bilder erstellt.

Mit Blick auf die Zukunft wird Bing dank mehr bild- und grafikzentrierter Antworten im Bing-Chat visueller werden. Es wird auch personalisierter, mit Funktionen, die es Benutzern ermöglichen, ihre Bing-Chat-Verläufe zu exportieren und Inhalte von Plugins von Drittanbietern einzubinden (dazu später mehr). Und es wird Multimodalität umfassen, zumindest in dem Sinne, dass Bing Chat in der Lage sein wird, Fragen im Kontext von Bildern zu beantworten.

„Ich denke, man kann mit Sicherheit sagen, dass wir mit der Transformation der Suche im Gange sind“, sagte Mehdi in vorbereiteten Bemerkungen. „In unseren Augen denken wir, dass heute der Beginn der nächsten Generation dieser ‚Suchmission‘ sein wird.“

Offen und visuell

Ab heute ist das neue Bing – das mit Bing Chat – ohne Warteliste verfügbar. Jeder kann es ausprobieren, indem er sich mit einem Microsoft-Konto anmeldet.

Es ist mehr oder weniger die Erfahrung, die vor einigen Monaten gestartet wurde. Aber wie bereits erwähnt, wird Bing Chat bald mit Bildern antworten – zumindest dort, wo es sinnvoll ist. Antworten auf Fragen (z. B. „Wo ist Machu Picchu?“) werden von relevanten Bildern begleitet, falls vorhanden, ähnlich wie beim standardmäßigen Bing-Suchablauf, aber komprimiert in einer kartenähnlichen Oberfläche.

Antworten mit Bildern, neu in Bing Chat.

In einer Demo auf der Veranstaltung tippte ein Sprecher die Frage „Züchtet der Saguaro-Kaktus Blumen?“ und Bing Chat zeigte eine absatzlange Antwort neben einem Bild des fraglichen Kaktus. Für mich hat es das „Wissenstafeln“ in der Google-Suche.

Microsoft sagt nicht, welche Inhaltskategorien genau ein Bild auslösen könnten. Aber es hat Filter, um zu verhindern, dass explizite Bilder erscheinen – oder so behauptet es.

Sarah Bird, Leiterin der verantwortlichen KI bei Microsoft, sagte mir, dass Bing Chat von der Filterung und Moderation profitiert, die bereits bei der Bing-Suche vorhanden ist. Darüber hinaus verwendet Bing Chat eine Kombination aus „Toxizitätsklassifikatoren“ oder KI-Modellen, die darauf trainiert sind, potenziell schädliche Eingabeaufforderungen zu erkennen, und schwarzen Listen, um den Chat relativ sauber zu halten.

Diese Maßnahmen hinderten Bing Chat nicht daran, aus den Fugen zu geraten, als es Anfang Februar zum ersten Mal in der Vorschau eingeführt wurde, es ist erwähnenswert. Unsere Berichterstattung fand heraus, dass der Chatbot Fehlinformationen über Impfstoffe verbreitete und einen hasserfüllten Estrich aus der Perspektive von Adolf Hitler schrieb. Andere Reporter brachten es dazu, Drohungen auszusprechen, mehrere Identitäten zu beanspruchen und sie sogar dafür zu beschämen, dass sie es ermahnt hatten.

In einem weiteren Schlag gegen Microsoft hat das Unternehmen erst vor wenigen Monaten das Ethik- und Gesellschaftsteam innerhalb seiner größeren KI-Organisation entlassen. Der Schritt ließ Microsoft ohne ein dediziertes Team zurück, um sicherzustellen, dass seine KI-Prinzipien eng mit dem Produktdesign verknüpft sind.

Bird behauptet jedoch, dass bedeutende Fortschritte erzielt wurden und dass diese Art von KI-Problemen nicht über Nacht gelöst werden – obwohl Bing Chat öffentlich sein mag. Unter anderem ist ein Team menschlicher Moderatoren vorhanden, die auf Missbrauch achten, sagte sie, wie beispielsweise Benutzer, die versuchen, Bing Chat zu verwenden, um Phishing-E-Mails zu generieren.

Aber – da Pressevertreter nicht die Möglichkeit hatten, über kuratierte Demos hinaus mit der neuesten Version von Bing zu interagieren – kann ich nicht sagen, inwieweit das alles einen Unterschied gemacht hat. Es wird zweifellos klar, sobald mehr Leute es in die Hände bekommen.

Das ist ein Aspekt von Bing Chat Ist Verbessert wird die Transparenz seiner Antworten – insbesondere faktenbasierter Antworten. Wenn Sie bald aufgefordert werden, ein Dokument zusammenzufassen oder über den Inhalt eines Dokuments (z. B. „Was sagt diese Seite über die Brooklyn Bridge?“), egal ob es sich um ein 20-seitiges PDF oder einen Wikipedia-Artikel handelt, wird Bing Chat Zitate enthalten, die angeben, woher sie stammen der Text, aus dem die Informationen stammen. Ein Klick darauf markiert die entsprechende Passage.

Produktivität entsteht

In einer weiteren neuen visuellen Funktion kann Bing Chat Diagramme und Grafiken erstellen, wenn es mit der richtigen Eingabeaufforderung und den richtigen Daten versorgt wird. Zuvor wurden Fragen wie „Welches sind die bevölkerungsreichsten Städte in Brasilien?“ gestellt. würde eine grundlegende Liste von Ergebnissen liefern. Aber in einer Vorschau in naher Zukunft wird Bing Chat diese Ergebnisse visuell und in dem Diagrammtyp nach Wahl des Benutzers präsentieren.

Dies stellt für Bing anscheinend einen Schritt in Richtung einer vollwertigen Produktivitätsplattform dar, insbesondere in Kombination mit den verbesserten Text-zu-Bild-Generierungsfunktionen, die in der Pipeline sind.

Microsoft Bing-Chat

Der Bildersteller im Bing-Chat.

In den kommenden Wochen wird Bing Image Creator – Microsofts Tool, das Bilder aus Texteingabeaufforderungen generieren kann, unterstützt von DALL-E 2 – neben Englisch (insgesamt über 100) weitere Sprachen verstehen. Wie im Englischen können Benutzer die von ihnen erzeugten Bilder mit Folgeaufforderungen verfeinern (z. B. „Mach ein Bild von einem Häschen“, gefolgt von „jetzt mach das Fell rosa“).

Generative Kunst-KI war in letzter Zeit viel in den Schlagzeilen – und nicht unbedingt aus den optimistischsten Gründen.

Die Kläger haben mehrere Klagen gegen OpenAI und seine konkurrierenden Anbieter eingereicht und behauptet, dass urheberrechtlich geschützte Daten – hauptsächlich Kunst – ohne ihre Erlaubnis verwendet wurden, um generative Modelle wie DALL-E 2 zu trainieren. Generative Modelle „lernen“, Kunst zu schaffen und mehr, indem sie „trainieren“. Beispielbilder und -texte, die normalerweise wahllos aus dem öffentlichen Internet geschabt werden.

Ich habe Bird gefragt, ob Microsoft nach Möglichkeiten sucht, Urheber zu entschädigen, deren Arbeit in Trainingsdaten geschwemmt wurde, auch wenn die offizielle Position des Unternehmens lautet, dass dies eine Frage von ist faire Nutzung. Mehrere Plattformen, die generative KI-Tools auf den Markt bringen, darunter Shutterstock, haben in diesem Sinne Fördergelder in die Wege geleitet. Andere, wie Spawning, schaffen Mechanismen, mit denen Künstler das KI-Modelltraining ganz ablehnen können.

Bird deutete an, dass diese Probleme letztendlich angegangen werden müssen – und dass die Ersteller von Inhalten eine Art von Vergütung verdienen. Aber sie war nicht bereit, sich diese Woche auf etwas Konkretes festzulegen.

Multimodale Suche

An anderer Stelle an der Bildfront gewinnt Bing Chat die Fähigkeit, sowohl Bilder als auch Text zu verstehen. Benutzer können Bilder hochladen und im Internet nach verwandten Inhalten suchen, z. B. einen Link zu einem Bild eines gehäkelten Tintenfischs kopieren und Bing Chat die Frage stellen: „Wie mache ich das?“ um Schritt-für-Schritt-Anleitungen zu erhalten.

Multimodalität unterstützt auch die neue Seitenkontextfunktion in der Edge-App für Mobilgeräte. Benutzer können im Bing-Chat Fragen zu der von ihnen angezeigten mobilen Seite stellen.

Microsoft würde so oder so nicht sagen, aber es scheint wahrscheinlich, dass diese neuen multimodalen Fähigkeiten von GPT-4 stammen, das neben Text auch Bilder verstehen kann. Als OpenAI GPT-4 ankündigte, stellte es die Bildverständnisfunktionen des Modells nicht allen Kunden zur Verfügung – und hat es immer noch nicht getan. Ich würde jedoch wetten, dass Microsoft als Hauptinvestor und enger Mitarbeiter von OpenAI eine Art privilegierten Zugang hat.

Jedes Tool zum Hochladen von Bildern kann natürlich missbraucht werden, weshalb Microsoft laut Bird automatisierte Filter und Hashing einsetzt, um illegale Uploads zu blockieren. Wie gut diese funktionieren, ist jedoch unklar – wir hatten nicht die Möglichkeit, Bild-Uploads selbst zu testen.

Neue Chat-Funktionen

Multimodalität und neue visuelle Funktionen sind nicht alles, was zu Bing Chat kommt.

Bald wird Bing Chat die Chatverläufe der Benutzer speichern, sodass sie dort weitermachen können, wo sie aufgehört haben, und zu früheren Chats zurückkehren können, wenn sie dies wünschen. Es ist eine Erfahrung, die der Chat-Verlaufsfunktion ähnelt, die OpenAI kürzlich in ChatGPT eingeführt hat, und zeigt eine Liste von Chats und die Antworten des Bots auf jeden dieser Chats.

Die Besonderheiten der Chat-Verlaufsfunktion müssen noch geklärt werden, wie z. B. wie lange Chats genau gespeichert werden. Benutzer können ihren Verlauf jedoch jederzeit löschen, sagt Microsoft – und geht auf die Kritik ein, die mehrere Regierungen der Europäischen Union gegen ChatGPT geäußert haben.

Microsoft Bing-Chat

Exportieren und Teilen von Chats aus Bing Chat.

Bing Chat erhält auch Export- und Freigabefunktionen, mit denen Benutzer Konversationen in sozialen Medien oder in einem Word-Dokument teilen können. Dena Saunders, eine Partner-GM im Web Experiences-Team von Microsoft, sagte gegenüber Tech, dass ein robusteres Copy-and-Paste-System in Arbeit sei – aber noch nicht in der Vorschau – für Grafiken und Bilder, die über Bing Chat erstellt wurden.

Die vielleicht transformativste Ergänzung zu Bing Chat sind jedoch Plugins. Plugins von Partnern wie OpenTable und Wolfram Alpha erweitern die Möglichkeiten von Bing Chat erheblich, indem sie beispielsweise Benutzern helfen, eine Reservierung zu buchen oder Visualisierungen zu erstellen und Antworten auf anspruchsvolle wissenschaftliche und mathematische Fragen zu erhalten.

Wie der Chat-Verlauf befindet sich die Funktionalität der noch nicht live geschalteten Plugins noch im Anfangsstadium. Es gibt keinen nennenswerten Plugin-Marktplatz; Plugins können über die Bing Chat-Weboberfläche ein- oder ausgeschaltet werden.

Saunders deutete an, wollte es aber nicht bestätigen, dass das Bing-Chat-Plug-in-Schema mit dem kürzlich eingeführten OpenAI verbunden war – oder vielleicht identisch mit ihm war Plugins für ChatGPT. Das würde angesichts der Ähnlichkeiten zwischen den beiden sicherlich Sinn machen.

Kante, aufgefrischt

Bing Chat ist natürlich sowohl über Edge als auch über das Internet verfügbar. Und Edge bekommt neben Bing Chat einen frischen Anstrich.

Der neue und verbesserte Edge, der erstmals im Februar in der Vorschau vorgestellt wurde, verfügt über abgerundete Ecken im Einklang mit der Windows 11-Designphilosophie von Microsoft. Elemente im Browser sind jetzt stärker „containerisiert“, wie ein Microsoft-Sprecher es ausdrückte, und es gibt überall subtile Verbesserungen, wie das Bild des Microsoft-Kontos, das sich von der Mitte nach links bewegt.

In Compose, dem Bing-Chat-basierten Tool von Edge, das E-Mails und mehr schreiben kann, wenn eine einfache Aufforderung gegeben wird (z. B. „Schreibe eine Einladung zur Geburtstagsfeier meines Hundes“), können Benutzer mit einer neuen Option die Länge, Formulierung und den Ton des generierten Textes anpassen fast alles, was sie möchten. Geben Sie den gewünschten Ton ein und Bing Chat schreibt eine passende Nachricht – Bird sagt, dass Filter vorhanden sind, um die Verwendung eindeutig problematischer Töne wie „hasserfüllt“ oder „rassistisch“ zu verhindern.

Weitaus faszinierender als Compose sind jedoch – zumindest für mich – Aktionen in Edge, die bestimmte Bing-Chat-Eingabeaufforderungen in Automatisierungen übersetzen.

Die Eingabe eines Befehls wie „Meine Passwörter von einem anderen Browser übernehmen“ in Bing Chat in der Edge-Seitenleiste öffnet die Browserdaten-Einstellungsseite von Edge, während die Eingabeaufforderung „Play ‚The Devil Wears Prada‘“ eine Liste von Streaming-Optionen einschließlich Vudu und (vorhersehbar ) im Microsoft Store. Es gibt sogar eine Aktion, die automatisch die Registerkarten zum Durchsuchen organisiert und farblich koordiniert.

Microsoft Bing-Chat

Edge-Aktionen in… Aktion.

Die Aktionen befinden sich derzeit in einem primitiven Stadium. Aber es ist klar, wohin Microsoft geht, hier. Man kann sich vorstellen, dass Aktionen schließlich über Edge hinaus auf andere Microsoft-Produkte wie Office 365 und vielleicht eines Tages auf den gesamten Windows-Desktop ausgeweitet werden.

Saunders würde weder bestätigen noch dementieren, dass dies das Endspiel ist. „Bleiben Sie dran für Microsoft Build“, sagte sie mir und bezog sich auf die bevorstehende Entwicklerkonferenz von Microsoft. Wir sollten.

tch-1-tech