KI, die mit Geräuschen sieht, laufen lernt und seismische Physik vorhersagt • Tech

KI die mit Geraeuschen sieht laufen lernt und seismische Physik

Die Forschung auf dem Gebiet des maschinellen Lernens und der KI, mittlerweile eine Schlüsseltechnologie in praktisch jeder Branche und jedem Unternehmen, ist viel zu umfangreich, als dass jemand sie vollständig lesen könnte. Diese Kolumne, Perceptron, zielt darauf ab, einige der relevantesten jüngsten Entdeckungen und Artikel zu sammeln – insbesondere in, aber nicht beschränkt auf, künstliche Intelligenz – und zu erklären, warum sie wichtig sind.

In diesem Monat stellten Ingenieure von Meta zwei aktuelle Innovationen aus den Tiefen der Forschungslabors des Unternehmens vor: ein KI-System, das Audiodateien komprimiert, und einen Algorithmus, der die Proteinfaltungs-KI-Leistung um das 60-fache beschleunigen kann. An anderer Stelle enthüllten Wissenschaftler des MIT, dass sie räumliche akustische Informationen verwenden, um Maschinen dabei zu helfen, sich ihre Umgebung besser vorzustellen, indem sie simulieren, wie ein Zuhörer einen Ton von jedem Punkt in einem Raum hören würde.

Die Komprimierungsarbeit von Meta erreicht nicht gerade unerforschtes Gebiet. Letztes Jahr kündigte Google an Lyra, ein neuronaler Audio-Codec, der darauf trainiert ist, Sprache mit niedriger Bitrate zu komprimieren. Aber Meta behauptet, dass sein System das erste ist, das für Stereo-Audio in CD-Qualität funktioniert, was es für kommerzielle Anwendungen wie Sprachanrufe nützlich macht.

Eine Architekturzeichnung des KI-Audiokompressionsmodells von Meta. Bildnachweis: Meta

Mithilfe von AI, dem Komprimierungssystem von Meta, genannt Codierung, kann Audio in Echtzeit auf einem einzelnen CPU-Kern mit Raten von etwa 1,5 kbps bis 12 kbps komprimieren und dekomprimieren. Im Vergleich zu MP3 erreicht Encodec bei 64 kbps eine etwa 10-fache Kompressionsrate ohne merklichen Qualitätsverlust.

Die Forscher hinter Encodec sagen, dass menschliche Bewerter die Qualität des von Encodec verarbeiteten Audios gegenüber dem von Lyra verarbeiteten Audio bevorzugten, was darauf hindeutet, dass Encodec schließlich verwendet werden könnte, um Audio in besserer Qualität in Situationen zu liefern, in denen die Bandbreite begrenzt oder teuer ist.

Die Proteinfaltungsarbeit von Meta hat weniger unmittelbares kommerzielles Potenzial. Aber es könnte den Grundstein für wichtige wissenschaftliche Forschung auf dem Gebiet der Biologie legen.

Faltung von Metaproteinen

Von Metas System vorhergesagte Proteinstrukturen. Bildnachweis: Meta

Meta sagt sein KI-System, ESMFold, die Strukturen von rund 600 Millionen noch nicht charakterisierten Proteinen aus Bakterien, Viren und anderen Mikroben vorhergesagt. Das ist mehr als das Dreifache der 220 Millionen Strukturen, die das von Alphabet unterstützte DeepMind Anfang dieses Jahres vorhersagen konnte, was fast jedes Protein bekannter Organismen in DNA-Datenbanken abdeckte.

Das System von Meta ist nicht so genau wie das von DeepMind. Von den etwa 600 Millionen Proteinen, die es erzeugte, war nur ein Drittel von „hoher Qualität“. Aber es ist 60-mal schneller bei der Vorhersage von Strukturen und ermöglicht es ihm, die Strukturvorhersage auf viel größere Datenbanken von Proteinen zu skalieren.

Um Meta keine übertriebene Aufmerksamkeit zu schenken, hat die KI-Sparte des Unternehmens diesen Monat ebenfalls begonnen detailliert ein System, das mathematisch begründet ist. Forscher des Unternehmens sagen, dass ihr „neuronaler Problemlöser“ aus einem Datensatz erfolgreicher mathematischer Beweise gelernt hat, um auf neue, unterschiedliche Arten von Problemen zu verallgemeinern.

Meta ist nicht der Erste, der ein solches System baut. OpenAI hat ein eigenes namens Lean entwickelt, das es angekündigt im Februar. Unabhängig davon hat DeepMind mit Systemen experimentiert, die anspruchsvolle mathematische Probleme bei der Untersuchung von Symmetrien und Knoten lösen können. Aber Meta behauptet, dass sein neuronaler Problemlöser in der Lage war, fünfmal mehr internationale Mathematikolympiade zu lösen als jedes vorherige KI-System und andere Systeme bei weit verbreiteten mathematischen Benchmarks übertroffen hat.

Meta stellt fest, dass mathematische KI den Bereichen Softwareverifizierung, Kryptografie und sogar der Luft- und Raumfahrt zugute kommen könnte.

Um unsere Aufmerksamkeit auf die Arbeit des MIT zu lenken, forschen dort Wissenschaftler aufgetreten ein maschinelles Lernmodell, das erfassen kann, wie sich Geräusche in einem Raum durch den Raum ausbreiten. Durch die Modellierung der Akustik kann das System die Geometrie eines Raums aus Tonaufnahmen lernen, die dann verwendet werden können, um visuelle Renderings eines Raums zu erstellen.

Die Forscher sagen, dass die Technologie auf Virtual- und Augmented-Reality-Software oder Roboter angewendet werden könnte, die durch komplexe Umgebungen navigieren müssen. In Zukunft planen sie, das System so zu verbessern, dass es auf neue und größere Szenen, wie ganze Gebäude oder sogar ganze Städte, verallgemeinert werden kann.

In der Robotikabteilung von Berkeley zwei getrennte Mannschaften beschleunigen die Rate, mit der ein vierbeiniger Roboter laufen und andere Tricks lernen kann. Ein Team wollte die Best-of-Breed-Arbeit aus zahlreichen anderen Fortschritten im Reinforcement Learning kombinieren, um es einem Roboter zu ermöglichen, in nur 20 Minuten Echtzeit vom unbeschriebenen Blatt zum robusten Gehen auf unsicherem Terrain zu wechseln.

„Vielleicht überraschend stellen wir fest, dass es mit mehreren sorgfältigen Designentscheidungen in Bezug auf die Aufgabenstellung und die Algorithmusimplementierung möglich ist, dass ein vierbeiniger Roboter in weniger als 20 Minuten das Gehen mit tiefem RL in einer Reihe von verschiedenen Umgebungen und von Grund auf lernt Oberflächentypen. Entscheidend ist, dass dafür keine neuartigen algorithmischen Komponenten oder andere unerwartete Innovationen erforderlich sind“, schreiben die Forscher.

Stattdessen wählen und kombinieren sie einige hochmoderne Ansätze und erzielen erstaunliche Ergebnisse. Sie können die Zeitung lesen hier.

KI die mit Geraeuschen sieht laufen lernt und seismische Physik

Roboterhunde-Demo aus dem Labor von EECS-Professor Pieter Abbeel in Berkeley, Kalifornien, im Jahr 2022. (Foto mit freundlicher Genehmigung von Philipp Wu/Berkeley Engineering)

Ein weiteres Fortbewegungslernprojekt aus dem Labor von (TechCrunchs Kumpel) Pieter Abbeel wurde als „Training einer Vorstellungskraft“ beschrieben. Sie haben den Roboter mit der Fähigkeit ausgestattet, Vorhersagen darüber zu treffen, wie seine Aktionen funktionieren werden, und obwohl er ziemlich hilflos beginnt, gewinnt er schnell mehr Wissen über die Welt und ihre Funktionsweise. Dies führt zu einem besseren Vorhersageprozess, der zu einem besseren Wissen führt, und so weiter im Feedback, bis es in weniger als einer Stunde läuft. Es lernt genauso schnell, sich davon zu erholen, dass es geschubst oder auf andere Weise „gequält“ wird, wie es der Jargon sagt. Ihre Arbeit wird dokumentiert hier.

Arbeit mit einer möglicherweise unmittelbareren Anwendung kam früher in diesem Monat aus dem Los Alamos National Laboratory, wo Forscher eine maschinelle Lerntechnik entwickelt haben, um die bei Erdbeben auftretende Reibung vorherzusagen – und damit eine Möglichkeit zur Vorhersage von Erdbeben bereitzustellen. Unter Verwendung eines Sprachmodells sagt das Team, dass es in der Lage war, die statistischen Merkmale von seismischen Signalen zu analysieren, die von einem Fehler in einer Erdbebenmaschine im Labor ausgesendet wurden, um den Zeitpunkt eines nächsten Bebens vorherzusagen.

„Das Modell ist nicht auf die Physik beschränkt, aber es sagt die Physik, das tatsächliche Verhalten des Systems, voraus“, sagte Chris Johnson, einer der Forschungsleiter des Projekts. „Jetzt machen wir eine Zukunftsprognose aus vergangenen Daten, die über die Beschreibung des momentanen Zustands des Systems hinausgeht.“

Traumzeit

Bildnachweis: Traumzeit

Es sei eine Herausforderung, die Technik in der realen Welt anzuwenden, sagen die Forscher, weil nicht klar ist, ob es genügend Daten gibt, um das Vorhersagesystem zu trainieren. Trotzdem sind sie optimistisch in Bezug auf die Anwendungen, zu denen auch die Vorhersage von Schäden an Brücken und anderen Bauwerken gehören könnte.

Letzte diese Woche ist eine Warnung von MIT-Forscherndie davor warnen, dass neuronale Netze, die zur Simulation tatsächlicher neuronaler Netze verwendet werden, sorgfältig auf Trainingsverzerrungen untersucht werden sollten.

Neuronale Netze basieren natürlich auf der Art und Weise, wie unser eigenes Gehirn Informationen verarbeitet und signalisiert, wodurch bestimmte Verbindungen und Kombinationen von Knoten verstärkt werden. Aber das bedeutet nicht, dass die synthetischen und die echten gleich funktionieren. Tatsächlich fand das MIT-Team heraus, dass auf neuronalen Netzwerken basierende Simulationen von Gitterzellen (Teil des Nervensystems) nur dann eine ähnliche Aktivität hervorriefen, wenn sie von ihren Erstellern sorgfältig dazu gezwungen wurden. Wenn man ihnen erlaubte, sich selbst zu regieren, wie es die tatsächlichen Zellen tun, erzeugten sie nicht das gewünschte Verhalten.

Das bedeutet nicht, dass Deep-Learning-Modelle in diesem Bereich nutzlos sind – ganz im Gegenteil, sie sind sehr wertvoll. Aber, wie Professor Ila Fiete im Newsbeitrag der Schule sagte: „Sie können ein mächtiges Werkzeug sein, aber man muss sehr vorsichtig sein, sie zu interpretieren und festzustellen, ob sie wirklich de novo Vorhersagen machen oder sogar Licht ins Dunkel bringen ist, dass das Gehirn optimiert.“

tch-1-tech