„Akustik spielt eine Rolle dabei, wie Klang im Metaversum erlebt wird, und wir glauben, dass KI der Kern für die Bereitstellung einer realistischen Klangqualität sein wird“, sagten die KI-Forscher und Audiospezialisten von Metas Reality Labs-Team.Sie haben die KI-Modelle in Zusammenarbeit mit Forschern der University of Texas in Austin erstellt und öffnen diese Modelle für audiovisuelles Verständnis für Entwickler.Das selbstüberwachte Visual-Acoustic-Matching-Modell, genannt AViTARpasst Audio an den Abstand eines Zielbilds an. Das selbstüberwachte Trainingsziel lernt die akustische Anpassung aus Webvideos in freier Wildbahn, trotz ihres Fehlens von akustisch nicht übereinstimmendem Audio und unbeschrifteten Daten, informierte Meta.VisualVoice lernt auf ähnliche Weise wie Menschen neue Fähigkeiten erlernen, indem sie visuelle und auditive Hinweise aus unbeschrifteten Videos lernen, um eine audiovisuelle Sprachtrennung zu erreichen. Stellen Sie sich zum Beispiel vor, Sie könnten mit Kollegen aus der ganzen Welt an einem Gruppentreffen im Metaversum teilnehmen, aber anstatt dass sich die Leute weniger unterhalten und miteinander reden, würden sich der Nachhall und die Akustik entsprechend anpassen, wenn sie sich im virtuellen Raum bewegen und zusammenkommen kleinere Gruppen. „VisualVoice lässt sich gut verallgemeinern, um reale Videos verschiedener Szenarien herauszufordern“, sagte er Meta-KI Forscher.
Meta baut KI-Modelle, die realistische Sounds in VR liefern
Meta (früher Facebook) hat drei neue künstliche Intelligenzen (KI)-Modelle, die entwickelt wurden, um den Klang in Mixed- und Virtual-Reality-Erlebnissen realistischer zu machen.Die drei KI-Modelle — Visuell-akustische Anpassung, Visuell informierte Enthallung und Visuelle Stimme — konzentrieren sich auf menschliche Sprache und Geräusche in Videos und sollen „uns schneller zu einer immersiveren Realität führen“, sagte das Unternehmen in einer Erklärung.