de

AI Voiceover: synthetische Sprachtechnologie mit enormem Potenzial

«Menschlicher als der Mensch lautet unser Motto», erklärte Dr. Eldon Tyrell im wegweisenden Science-Fiction-Film Blade Runner. Dieses Jahr ist der Film 40 Jahre alt. Seine Vision von künstlichen Wesen, die geschaffen werden, um der Gesellschaft zu dienen, wird allmählich zur Realität: Alles ist darauf ausgelegt, uns Menschen zu unterstützen – von selbstfahrenden Autos bis hin zu digitalen Assistenten. Verbunden damit ist eine Entwicklung, welche die Sprachdienstleistungs- und Lokalisierungsbranche im Sturm erobern dürfte: auf künstliche Intelligenz gestützte Voiceover-Technologie (AI Voiceover). Dabei handelt es sich um eine Suite von Software zur Erzeugung künstlicher Stimmen, die Text oder Inhalt vortragen. Viele Entwickler behaupten, dass diese Stimmen nicht mehr von ihren menschlichen Pendants zu unterscheiden sind. Wir wollten es genauer wissen und haben uns näher angeschaut, wie gut diese Technologie wirklich ist und wo sie eingesetzt werden kann.

Wie funktioniert AI Voiceover?

Die Technologie selbst mag komplex sein, aber die Prämisse dahinter ist einfach: Eine auf künstliche Intelligenz gestützte Software speist Text in eine auf Deep Learning basierende Sprachverarbeitungsmaschine ein, um audio(visuellen) Inhalt zu erzeugen. Den synthetischen Stimmen liegen in der Regel die Stimmen menschlicher Sprecher zugrunde. So sollen Authentizität und möglichst starkes Engagement des Publikums erreicht werden. Manchmal werden synthetische Stimmen mit einem digitalen Avatar kombiniert, um ihnen mehr Glaubwürdigkeit zu verleihen. Vor diesem Hintergrund stellt sich natürlich die Millionen-Dollar-Frage: Sind diese synthetischen Stimmen wirklich so lebensecht, wie die Entwickler behaupten?

Urteilen Sie selbst:

Wir meinen: Noch nicht ganz. Dennoch bietet die Technologie zahlreiche Vorteile, nicht zuletzt für Unternehmen auf der Suche nach einer Voiceover-Lösung für ihre Marke, die kostengünstiger und schneller zu produzieren ist als mit einem menschlichen Sprecher. Dieser muss schliesslich erst noch gebucht und bezahlt werden, hinzu kommen ausserdem Ausgaben für die Ausrüstung und die Studiozeit. Entscheidend ist, wie die Technologie eingesetzt wird: Zur Produktion hochwertiger Fernseh-Werbespots mögen künstlich generierte Voiceovers noch nicht geeignet sein, doch für weniger prominente Inhalte sind sie perfekt. AI Voiceover eignet sich für alles vom Anleitungsvideo auf YouTube über mobile Apps in der Beta-Entwicklungsphase bis hin zu internem Einführungsmaterial für neu eingestellte Mitarbeitende. Deshalb ist jetzt ein guter Zeitpunkt, um einige der Dienste auszuprobieren, die von innovativen Sprachtechnologieunternehmen angeboten werden.

Akteure und Wegbereiter der AI Voiceover-Technologie

Schauen wir uns kurz einmal einige der Pioniere dieser Technologie an. Erstens ist da synthesia. Das Softwareunternehmen wurde 2017 von einem Team cleverer junger Leute gegründet und bietet Lösungen im Bereich der «synthetischen Medien» an. (Das oben verlinkte AI Voiceover-Video wurde mit dieser Technologie erzeugt.) Ausserdem ist Flawless AI zu nennen, dessen Synchronisationssoftware TrueSync von Time als eine der besten Erfindungen des Jahres 2021 gelobt wurde. Die Website von Murf wirbt mit lebensechten AI-Stimmen, mit denen innerhalb von kürzester Zeit Voiceovers in «Studioqualität» produziert werden können. Blakify bietet seine Leistungen in 65 Sprachen und mit einer Auswahl von über 400 Stimmen an. Lovo setzt noch einen drauf und bietet Nutzern das Klonen ihrer Stimmen in Eigenregie an, damit sie Audiobücher, YouTube-Inhalt, Instagram-Stories und mehr erstellen können. Selbst Amazon mischt in diesem Bereich mit: Der Online-Versandhändler bietet mit Polly eine Suite an, mit der Nutzer und Unternehmen bis zu fünf Millionen Zeichen Text kostenlos in «lebensechte Sprache» umwandeln können.

Inklusive Innovation mit echtem Potenzial, Leben zu verändern

Jedes Mal, wenn eine angesagte neue Technologie auf den Markt kommt, werden in den Medien gerne Begriffe wie «bahnbrechend», «revolutionär» und «lebensverbessernd» verwendet. Diese grossen Erwartungen werden in Wirklichkeit selten erfüllt. Doch AI Voiceover bietet tatsächlich unglaubliches Potenzial. Die Technologie spart nicht nur Zeit, senkt die Kosten und hilft, auf dem neuesten Stand zu bleiben. Sie kann auch dazu beitragen, die Lebensqualität von Menschen mit unterschiedlichsten Einschränkungen zu verbessern. So kann sie beispielsweise ein riesiges Spektrum von Inhalten für blinde oder sehbehinderte Menschen klar, verständlich und ansprechend wiedergeben. Das iPhone Voiceover-Tool  ist ein gutes Beispiel dafür, wie dies in der Praxis funktioniert: Die auf künstliche Intelligenz gestützte Funktion zum Vorlesen von Bildschirminhalten liest App-Beschreibungen, den Batteriestand und eingehende Anrufe vor und kann sogar eine Beschreibung bestimmter Bilder abgeben. Grössere Mengen von Text können zusammengefasst und für Menschen mit Lernschwierigkeiten verständlich gemacht werden (das kann man sich wie Wikipedia in leichter Sprache vorstellen, aber gestützt auf künstliche Intelligenz). Personen mit Beweglichkeitsproblemen wie etwa ältere Menschen können ebenfalls davon profitieren, da sie nicht scrollen oder tippen müssen, sondern sich den Inhalt laut vorlesen lassen können. Bahnbrechende, revolutionäre, lebensverbessernde Technologie – all diese Beschreibungen treffen auf AI Voiceover tatsächlich zu.

Die Roboter kommen

Wie also lautet unser Urteil über AI Voiceover-Technologie? Nun, sie ist vielleicht nicht «menschlicher als der Mensch», aber unserer Meinung nach ist AI Voiceover zweifellos eine aufregende Entwicklung für die Sprachdienstleistungsbranche. Eine kostengünstige Stimme, an der eine Marke eindeutig zu erkennen ist, die innerhalb kurzer Zeit generiert und leicht an sich verändernde Situationen und Inhalte angepasst werden kann: Klingt das nicht wie ein Traum? Natürlich werden auch echte menschliche Stimmen noch für lange Zeit ihren Platz haben – in hochwertigen, prestigeträchtigen Bereichen wie Werbespots und -inhalten, bei denen Authentizität nicht einfach vorgetäuscht werden kann. Eines aber ist sicher: Die lächelnden, seelenlosen, mit sanfter Stimme sprechenden Roboter kommen – sie sind schon auf dem Weg.