Auf der Bühne des re:Mars Diese Woche präsentierte Amazon eine sich entwickelnde Alexa-Funktion, die den Fluss natürlicher Sprache nachahmen soll. Gespräche zwischen zwei Menschen folgen selten einer vordefinierten Struktur. Es geht an seltsame und unerwartete Orte. Ein Thema geht in ein anderes über, während die Teilnehmer ihre gelebten Erfahrungen einbringen.
In einer Demo verwandelt sich ein Gespräch über Bäume in eines über Wandern und Parks. Im Zusammenhang mit der KI des Unternehmens bezeichnet Rohit Prasad, Senior Vice President und leitender Wissenschaftler für Alexa, das Phänomen als „Conversation Exploration“. Es ist nicht genau ein richtiger Name für ein richtiges Feature. Es gibt keinen Schalter, der umgelegt wird, um plötzlich Gespräche über Nacht zu ermöglichen. Vielmehr ist es Teil einer sich entwickelnden Vorstellung davon, wie Alexa auf menschlichere – oder vielleicht menschlichere – Weise mit Benutzern interagieren kann.
Intelligente Assistenten wie Alexa bieten traditionell ein viel einfacheres Frage-und-Antwort-Modell. Fragen Sie Alexa nach dem Wetter und Alexa sagt Ihnen das Wetter in einem vorher festgelegten Gebiet. Fragen Sie sie nach der Punktzahl von A (oder ehrlich gesagt wahrscheinlich nicht), und Alexa sagt Ihnen die Punktzahl von A. Es ist eine unkomplizierte Interaktion, nicht unähnlich der Eingabe einer Frage in eine Suchmaschine. Aber auch hier spielen sich Gespräche in der realen Welt selten auf diese Weise ab.
„Es gibt eine ganze Reihe von Fragen, die Alexa bekommt, die sehr viele Informationen enthalten. Wenn diese Fragen auftreten, können Sie sich vorstellen, dass es sich nicht um Punktfragen handelt“, sagte Prasad in einem Gespräch auf der Veranstaltung zu Tech. „Es geht wirklich um etwas, worüber der Kunde mehr erfahren möchte. Was uns gerade beschäftigt, ist, was mit der Inflation passiert. Wir erhalten eine Menge solcher Anfragen an Alexa, und es gibt Ihnen diese Art von Erkundungserfahrung.“
Solche Konversationsfunktionen sind jedoch die Art und Weise, auf die ein Heimassistent wie Alexa hochfährt. Acht Jahre nach der Markteinführung durch Amazon lernt der Assistent immer noch – er sammelt Daten und ermittelt die besten Wege, um mit den Verbrauchern zu interagieren. Selbst wenn etwas an den Punkt kommt, an dem Amazon bereit ist, es auf einer Keynote-Bühne zu präsentieren, sind immer noch Optimierungen erforderlich.
„Alexa muss Experte für viele Themen sein“, erklärt Prasad. „Das ist der große Paradigmenwechsel, und es dauert eine Weile, bis man sich diese Art von Fachwissen aneignet. Das wird eine Reise, und mit den Interaktionen unserer Kunden wird es nicht so sein, als würde Alexa vom ersten Tag an alles wissen. Aber diese Fragen können sich zu weiteren Erkundungen entwickeln, bei denen Sie am Ende etwas tun, von dem Sie nicht dachten, dass Sie es wären.“
Das Wort „Empathy“ in großen, fetten Buchstaben auf der Bühne hinter Prasad zu sehen, war ein Hingucker – wenn auch vielleicht nicht so sehr wie das, was als nächstes kam.
Es gibt einige einfache Szenarien, in denen das Konzept der Empathie bei einem Gespräch mit Menschen und intelligenten Assistenten gleichermaßen eine Rolle spielen könnte oder sollte. Nehmen Sie zum Beispiel die Fähigkeit, soziale Hinweise zu lesen. Es ist eine Fähigkeit, die wir uns durch Erfahrung aneignen – die Fähigkeit, die manchmal subtile Sprache von Gesichtern und Körpern zu lesen. Emotionale Intelligenz für Alexa ist ein Begriff, über den Prasad seit Jahren diskutiert. Das beginnt damit, den Ton des Assistenten zu ändern, um auf eine Weise zu reagieren, die Freude oder Enttäuschung ausdrückt.
Die Kehrseite bestimmt die Emotion eines menschlichen Sprechers, ein Konzept, an dessen Perfektionierung das Unternehmen seit mehreren Jahren arbeitet. Diese Arbeit hat sich auf verschiedene Weise manifestiert, einschließlich des Debüts des umstrittenen tragbaren Halo des Unternehmens im Jahr 2020, das eine Funktion namens Tone bietet, die angeblich „Energie und Positivität in der Stimme eines Kunden analysiert, damit er verstehen kann, wie sie für andere klingt, und ihre Stimme verbessern kann Kommunikation und Beziehungen.“
„Ich denke, sowohl Empathie als auch Affekt sind bekannte Arten der Interaktion im Hinblick auf den Aufbau von Beziehungen“, sagte Prasad. „Alexa kann für Ihren emotionalen Zustand nicht taub sein. Wenn Sie hereingekommen sind und keine gute Laune haben, ist es schwer zu sagen, was Sie tun sollten. Jemand, der Sie gut kennt, wird anders reagieren. Das ist eine sehr hohe Messlatte für die KI, aber es ist etwas, das man nicht ignorieren kann.“
Die Exekutive stellt fest, dass Alexa für einige Benutzer bereits zu einer Art Begleiter geworden ist – insbesondere bei der älteren Bevölkerungsgruppe. Ein dialogorientierterer Ansatz würde dieses Phänomen wahrscheinlich nur verstärken. In Demos von Astro in dieser Woche bezeichnete das Unternehmen den Heimroboter häufig als eine fast haustierähnliche Funktion im Haushalt. Solche Vorstellungen haben jedoch ihre Grenzen.
„Es sollte nicht darüber hinwegtäuschen, dass es sich um eine KI handelt“, fügte Prasad hinzu. „Wenn es zur Sache geht [where] es ist nicht zu unterscheiden – wovon wir noch weit entfernt sind – es sollte dennoch sehr transparent sein.“
Ein nachfolgendes Video demonstrierte eine beeindruckende neue Sprachsynthesetechnologie, die nur eine Minute Audio verwendet, um eine überzeugende Annäherung an eine sprechende Person zu erstellen. Darin liest die Stimme einer Großmutter ihrem Enkel „Der Zauberer von Oz“ vor. Die Idee, geliebten Menschen durch maschinelles Lernen zu gedenken, ist nicht ganz neu. Unternehmen wie MyHeritage nutzen beispielsweise Technologien, um Bilder verstorbener Verwandter zu animieren. Aber diese Szenarien verursachen ausnahmslos – und verständlicherweise – ein paar Nackenhaare.
Prasad wies schnell darauf hin, dass die Demo eher ein Proof of Concept sei und die zugrunde liegenden Sprachtechnologien hervorhebt.
„Es ging mehr um die Technologie“, erklärt er. „Wir sind ein sehr kundenorientiertes Wissenschaftsunternehmen. Wir möchten, dass unsere Wissenschaft den Kunden etwas bedeutet. Im Gegensatz zu vielen Dingen, bei denen Generierung und Synthese ohne die richtigen Gates verwendet wurden, fühlt sich dies so an, als würden die Kunden es lieben. Wir müssen ihnen die richtigen Steuerelemente geben, einschließlich der Frage, wessen Stimme es ist.“
In Anbetracht dessen gibt es keinen Zeitplan für eine solche Funktion – falls eine solche Funktion tatsächlich jemals auf Alexa existieren wird. Der Geschäftsführer stellt jedoch fest, dass die Technologie, die es antreiben würde, in den Amazon Labs sehr gut läuft. Wenn es jedoch ankommt, würde dies wiederum einen Teil der oben genannten Transparenz erfordern.
„Im Gegensatz zu Deepfakes, wenn Sie transparent darüber sind, wofür es verwendet wird, es einen klaren Entscheidungsträger gibt und der Kunde die Kontrolle über seine Daten hat und wofür er sie verwenden möchte, denke ich, dass dies die richtigen Schritte sind “, erklärte Prasad. „Hier ging es nicht um ‚tote Oma‘. Die Oma lebt in diesem hier, nur um es ganz klar zu sagen.“
Auf die Frage, wie Alexa in 10 bis 15 Jahren in der Zukunft aussehen könnte, erklärt Prasad, dass es um die Wahl geht – allerdings weniger darum, Alexa mit individuellen und einzigartigen Persönlichkeiten zu versehen, als vielmehr darum, den Benutzern eine flexible Computerplattform anzubieten.
„Es sollte in der Lage sein, alles zu erreichen, was Sie wollen“, sagte er. „Es geht nicht nur um die Stimme; Es ist Intelligenz im richtigen Moment, und hier kommt Umgebungsintelligenz ins Spiel. Sie sollte Ihnen in einigen Fällen proaktiv helfen und Ihren Bedarf antizipieren. An dieser Stelle führen wir die Konversationserkundung weiter aus. Alles, wonach Sie suchen – stellen Sie sich vor, wie viel Zeit Sie für die Buchung eines Urlaubs aufwenden [when you don’t] ein Reisebüro haben. Stellen Sie sich vor, wie viel Zeit Sie damit verbringen, die gewünschte Kamera oder den gewünschten Fernseher zu kaufen. Alles, was Zeit zum Suchen erfordert, sollte viel schneller werden.“