Wie Ihr Google Pixel-Smartphone weiß, wer was während der Aufnahme gesagt hat

Die Kolosseen von Elden Ring oeffnen morgen endlich im kostenlosen

Als Teil des Dezembers Pixel-Feature-DropGoogle Pixel Smartphones haben ein wichtiges Update in der nativen Recorder-App erhalten. Es verfügt über Lautsprecheretiketten, die mehrere Personen identifizieren und Lautsprecheretiketten platzieren können, damit Sie wissen, wer was gesagt hat, wenn Sie die Aufzeichnung später erneut aufrufen. Diese neue Funktion wurde auf Pixel 6-, Pixel Pro-, Pixel 6a-, Pixel 7- und Pixel 7 Pro-Smartphones eingeführt.
Das Team hinter der Entwicklung dieses raffinierten Features hat nun erklärt, wie sie daran gearbeitet haben. Google sagt, dass die Funktion die jüngsten Entwicklungen im maschinellen Lernen auf dem Gerät nutzt, um Sprache zu transkribieren, Audioereignisse zu erkennen, Tags für Titel vorzuschlagen und Benutzern beim Navigieren in Transkripten zu helfen.

Das Sprecherdiarisierungssystem von Google
Speaker Labels werden von Turn-to-Diarize unterstützt, Googles neuem Sprecherdiarisierungssystem – ist der Prozess der Partitionierung eines Eingangsaudiostroms in Segmente gemäß der Sprecheridentität. Das Sprecherdiarisierungssystem von Google hat drei Hauptsegmente.

  • Die erste ist die Erkennung des Sprecherwechsels, die einen Wechsel des Sprechers in der Eingangssprache erkennt. Es wandelt die akustischen Merkmale in Texttranskripte um, die weiter mit einem speziellen Token erweitert werden, das einen Sprecherwechsel darstellt.
  • Das zweite ist das „Lautsprecher-Encoder-Modell“, das Stimmeigenschaften aus jeder Sprecherumdrehung extrahiert. „Sobald die Audioaufnahme in homogene Sprecherrunden segmentiert wurde, verwenden wir ein Sprecher-Encoder-Modell, um einen Einbettungsvektor zu extrahieren, der die Stimmeigenschaften jeder Sprecherrunde darstellt“, sagte das Unternehmen.
  • Der dritte ist ein „mehrstufiger Clustering-Algorithmus“, der verwendet wird, um zu bestimmen, ob es mindestens zwei verschiedene Sprecher in der Aufnahme gibt, und der dann jeden Sprecher kommentiert.

Korrektur und Anpassung
Die Rekorder-App nimmt auch Korrekturen in Echtzeit vor, um die Lautsprecherbezeichnungen auf dem Bildschirm automatisch zu aktualisieren und die genauesten Vorhersagen wiederzugeben. „Da das Modell mehr Audioeingang verbraucht, sammelt es Vertrauen in vorhergesagte Lautsprecherbezeichnungen und kann gelegentlich Korrekturen an zuvor vorhergesagten Lautsprecherbezeichnungen mit geringem Vertrauen vornehmen“, sagte Google.

Google Pixel 7 in Indien eingeführt. Anfassen und erster Blick

toi-tech