Die Kombination von Vision und Sprache könnte der Schlüssel zu einer leistungsfähigeren KI sein – Tech

Die Kombination von Vision und Sprache koennte der Schluessel zu

Abhängig von der Intelligenztheorie, der Sie sich verschrieben haben, erfordert das Erreichen von KI auf „menschlicher Ebene“ ein System, das mehrere Modalitäten – z. B. Ton, Bild und Text – nutzen kann, um über die Welt zu argumentieren. Wenn beispielsweise ein Bild eines umgestürzten Lastwagens und eines Polizeikreuzers auf einer verschneiten Autobahn gezeigt wird, könnte eine KI auf menschlicher Ebene schlussfolgern, dass gefährliche Straßenverhältnisse einen Unfall verursacht haben. Oder sie liefen auf einem Roboter, wenn sie gebeten wurden, eine Dose Limonade aus dem Kühlschrank zu holen, und navigierten um Menschen, Möbel und Haustiere herum, um die Dose zu holen und in Reichweite des Anforderers zu platzieren.

Die heutige KI greift zu kurz. Neue Forschungen zeigen jedoch Anzeichen für ermutigende Fortschritte, von Robotern, die Schritte zur Erfüllung grundlegender Befehle (z. B. „Hole eine Wasserflasche“) bis hin zu texterzeugenden Systemen, die aus Erklärungen lernen, herausfinden können. In dieser wiederbelebten Ausgabe von Deep Science, unserer wöchentlichen Serie über die neuesten Entwicklungen in der KI und dem breiteren wissenschaftlichen Bereich, berichten wir über Arbeiten von DeepMind, Google und OpenAI, die Fortschritte in Richtung Systeme machen, die die Welt – wenn nicht sogar perfekt verstehen – können. Lösen Sie enge Aufgaben wie das Generieren von Bildern mit beeindruckender Robustheit.

KI-Forschungslabor Das verbesserte DALL-E von OpenAI, DALL-E 2, ist mit Abstand das beeindruckendste Projekt, das aus den Tiefen eines KI-Forschungslabors hervorgegangen ist. Wie mein Kollege Devin Coldewey schreibt, während der ursprüngliche DALL-E eine bemerkenswerte Fähigkeit bewies, Bilder zu erstellen, die praktisch jeder Aufforderung entsprechen (z. B. „ein Hund mit Baskenmütze“), geht DALL-E 2 noch einen Schritt weiter. Die erzeugten Bilder sind viel detaillierter, und DALL-E 2 kann einen bestimmten Bereich in einem Bild intelligent ersetzen – beispielsweise durch Einfügen eines Tisches in ein Foto eines Marmorbodens mit den entsprechenden Reflexionen.

Ein Beispiel für die Arten von Bildern, die DALL-E 2 erzeugen kann.

DALL-E 2 erhielt diese Woche die meiste Aufmerksamkeit. Aber am Donnerstag haben Forscher von Google ein ebenso beeindruckendes visuelles Verständnissystem namens Visually-Driven Prosody for Text-to-Speech detailliert beschrieben – VDTTS – in einem Beitrag, der im KI-Blog von Google veröffentlicht wurde. VDTTS kann realistisch klingende, lippensynchrone Sprache erzeugen, wenn nur Text- und Videoframes der sprechenden Person vorhanden sind.

Die von VDTTS generierte Sprache ist zwar kein perfekter Ersatz für aufgezeichnete Dialoge, aber dennoch recht gut, mit überzeugend menschenähnlicher Ausdruckskraft und Timing. Google sieht, dass es eines Tages in einem Studio verwendet wird, um Original-Audio zu ersetzen, das möglicherweise unter lauten Bedingungen aufgenommen wurde.

Natürlich ist visuelles Verstehen nur ein Schritt auf dem Weg zu leistungsfähigerer KI. Eine weitere Komponente ist das Sprachverständnis, das in vielen Aspekten hinterherhinkt – selbst wenn man die gut dokumentierten Toxizitäts- und Verzerrungsprobleme der KI außer Acht lässt. Ein krasses Beispiel: Ein hochmodernes System von Google, Pathways Language Model (PaLM), speicherte 40 % der Daten, die verwendet wurden, um es zu „trainieren“, laut einer Veröffentlichung, was dazu führte, dass PaLM Text bis hin zu Urheberrechtshinweisen plagiierte Code Ausschnitte.

Glücklicherweise gehört DeepMind, das von Alphabet unterstützte KI-Labor, zu den Forschungstechniken, um dies anzugehen. In einem neuen lernenuntersuchen DeepMind-Forscher, ob KI-Sprachsysteme – die lernen, Text aus vielen Beispielen von vorhandenem Text zu generieren (denken Sie an Bücher und soziale Medien) – davon profitieren könnten Erklärungen dieser Texte. Nachdem du Dutzende Sprachaufgaben kommentiert hast (z. B. „Beantworte diese Fragen, indem du feststellst, ob der zweite Satz eine angemessene Paraphrase des ersten, metaphorischen Satzes ist“) mit Erklärungen (z. B. „Davids Augen waren nicht buchstäblich Dolche, es ist eine Metapher, die dazu verwendet wurde deuten darauf hin, dass David Paul wütend anstarrte.“) und die Leistung verschiedener Systeme auf ihnen bewertete, fand das DeepMind-Team heraus, dass Beispiele die Leistung der Systeme tatsächlich verbessern.

Der Ansatz von DeepMind könnte, wenn er sich innerhalb der akademischen Gemeinschaft durchsetzt, eines Tages in der Robotik angewendet werden und die Bausteine ​​eines Roboters bilden, der vage Aufforderungen (z. B. „Wirf den Müll raus“) ohne Schritt-für-Schritt-Anweisungen verstehen kann. Googles neues „Tu, was ich kann, nicht, was ich sage“-Projekt gibt einen Einblick in diese Zukunft – wenn auch mit erheblichen Einschränkungen.

Do As I Can, Not As I Say, eine Zusammenarbeit zwischen Robotics bei Google und dem Everyday Robotics-Team im X-Labor von Alphabet, versucht, ein KI-Sprachsystem so zu konditionieren, dass es Aktionen vorschlägt, die für einen Roboter „durchführbar“ und „kontextuell angemessen“ sind, wenn eine Willkür gegeben ist Aufgabe. Der Roboter fungiert als „Hände und Augen“ des Sprachsystems, während das System semantisches Wissen auf hoher Ebene über die Aufgabe liefert – die Theorie besagt, dass das Sprachsystem eine Fülle von Wissen kodiert, das für den Roboter nützlich ist.

Google-Robotik

Bildnachweis: Robotik bei Google

Ein System namens SayCan wählt aus, welche Fertigkeit der Roboter als Reaktion auf einen Befehl ausführen soll, wobei (1) die Wahrscheinlichkeit, dass eine bestimmte Fertigkeit nützlich ist, und (2) die Möglichkeit, diese Fertigkeit erfolgreich auszuführen, berücksichtigt werden. Wenn beispielsweise jemand sagt: „Ich habe meine Cola verschüttet, kannst du mir etwas zum Aufräumen bringen?“, kann SayCan den Roboter anweisen, einen Schwamm zu finden, den Schwamm aufzuheben und ihn der Person zu bringen, die darum gebeten hat es.

SayCan ist durch Robotik-Hardware eingeschränkt – bei mehr als einer Gelegenheit beobachtete das Forschungsteam, dass der Roboter, den sie für die Durchführung von Experimenten ausgewählt hatten, versehentlich Objekte fallen ließ. Dennoch ist es, zusammen mit der Arbeit von DALL-E 2 und DeepMind im Kontextverständnis, ein Beispiel dafür, wie KI-Systeme, wenn sie kombiniert werden, uns einem viel näher bringen können Jetsons-Typ Zukunft.

tch-1-tech