Am Donnerstag hat Google eine innovative Funktion vorgestellt, die die Untertitel in Videos lebendiger gestaltet. Diese Funktion trägt den Namen Expressive Captions (Ausdrucksstarke Untertitel) und geht über die einfache Transkription hinaus – sie vermittelt auch, wie etwas gesagt wird.
Beispielsweise, wenn jemand enthusiastisch „HAPPY BIRTHDAY“ wünscht, erscheinen die Untertitel in Großbuchstaben. Um ein umfassenderes Bild des Geschehens zu erhalten, werden auch Umgebungsgeräusche beschrieben, wie Applaus oder Musik. Zudem werden andere Ausdrucksformen, wie Seufzer, Grunzen oder Keuchen, durch die Expressive Captions erfasst.
Expressive Captions: Eine Neuerung in der Live Caption Funktion
Diese Funktion ist Teil von Live Caption, das automatisch Untertitel in Echtzeit für verschiedene Inhalte wie Videos, Telefonanrufe und Sprachnachrichten erstellt. Diese Funktion ist in das Android-Betriebssystem integriert und funktioniert in allen Anwendungen Ihres Smartphones, was bedeutet, dass die Expressive Captions bei den meisten Inhalten verwendet werden können, die Sie ansehen, darunter auch Live-Übertragungen in sozialen Medien oder Video-Nachrichten. Da die Untertitel direkt auf dem Gerät generiert werden, sind sie auch im Flugmodus oder ohne Internetverbindung verfügbar.
Die Funktion von Expressive Captions im Detail
Traditionell werden Untertitel von gehörlosen oder schwerhörigen Menschen verwendet, um Fernsehinhalte zu verfolgen. In den letzten Jahren hat sich jedoch die Nutzung ausgeweitet und erreicht verschiedene Personengruppen. Etwa 70 % der Generation Z schauen regelmäßig Fernsehen mit Untertiteln, so eine Studie der Online-Sprachlernplattform Preply. Dennoch verfügen Live-Streams, soziale Medien und persönliche Videos selten über vorinstallierte Untertitel.
Technologische Fortschritte durch KI
Die Teams von Android und Google DeepMind haben zusammen an der Entwicklung der Expressive Captions gearbeitet, die mehrere KI-Modelle nutzt, um stilisierte Untertitel zu erzeugen, die ein breiteres Spektrum an Geräuschen erkennen können. Das Ziel ist, die Vielfalt und Dynamik des Audioerlebnisses nachzuahmen. „So integrieren wir die Erfahrungen von Menschen mit Behinderungen und nutzen KI, um Lösungen zu schaffen, die für alle zugänglich sind“, erklärte Angana Ghosh, Produktmanagerin von Android, in einem Blogbeitrag.
Weitere neue Funktionen von Google
Zusätzlich zu den Expressive Captions führt Google auch Verbesserungen in der Lookout-App ein, die Menschen mit Sehbehinderungen hilft, Objekte zu identifizieren und Informationen über ihre Umgebung zu erhalten. Lookout unterstützt nun auch Arabisch und nutzt die KI-Modelle von Gemini, um Bildbeschreibungen zu liefern und einen Frage-Antwort-Modus anzubieten. Die App erkennt automatisch die Sprache und bietet natürlichere Sprachausgaben.
Pixel-Nutzer genießen zudem zusätzliche Funktionen wie „Gemini Saved Info“, mit der Nutzer Gemini ihre Interessen und Vorlieben mitteilen können, um relevantere Antworten zu erhalten. Eine andere Neuigkeit vereinfacht das Speichern von Inhalten in Pixel Screenshots, was die spätere Suche erleichtert. Schließlich ermöglicht die Funktion „Simple View“ auf Pixel-Geräten eine benutzerfreundliche Navigation durch die Oberfläche und bietet ein klar strukturiertes Layout.
Die Einführung der Expressive Captions verspricht, das Seherlebnis von Inhalten ohne Ton zu bereichern, und richtet sich sowohl an gehörlose Menschen als auch an jene, die lieber den Lautsprecher nicht aktivieren.
Als junges unabhängiges Medienunternehmen, Smartphone-Web.com braucht deine Hilfe. Unterstütze uns, indem du uns auf Google News folgst und ein Lesezeichen setzt. DANKE!