So entsteht eine Computerstimme

Nuance Communications AG lud Computerworld zu einem Rundgang durch sein Sprachlabor in Zürich ein.

» Von Simon Gröflin , 28.10.2015 14:34.

«Sprache fasziniert uns alle irgendwie», sagt Johan Wouters, Leiter der Sprachentwicklung von Nuance Communications Switzerland auf meine Begeisterung hin, welch komplexe Mechanismen beim Substrat eines «Sprachwurms» von acht aufgezeichneten Sprachstunden anfallen. Nuance, ehemals eine kleine Scan-Software-Firma aus den Neunzigern, unterhält heute weltweit mehrere Sprachlabors, in Europa unter anderem in Deutschland, Belgien, Italien, Österreich und der Schweiz. Mit diversifizierter Ausrichtung auf verschiedenste Unternehmenszweige wie Healthcare, Autoindustrie und Smartphone-Business findet man Spracherkennungstechnik von Nuance mittlerweile in vielen Alltagsgeräten: etwa in der Siri-Konkurrentin «S-Voice» von Samsung, in der bekannten Tastatur-App Swype oder auch in neueren Panasonic-Fernsehern.

Sprachbedienung im Alltag als visionäres Ziel von Nuance

Die visionäre Anspielung auf eine übergeordnete Mission hin, durch Sprache den Umgang mit Technik im Alltag intelligenter zu gestalten, liess mich im Gespräch zunächst unbeeindruckt: Denn Spracherkennung im Alltag ist noch längst nicht da, wo sie sein sollte. Rudimentär betrachtet, frage ich Siri oder Google nur selten gerne, was ich demnächst im Kino sehen möchte, zumal kontextbasierte Informationsanzeige noch immer nicht funktioniert. Statt eine konkrete Koordinate will mir Siri immer Listen anzeigen. Zudem bringen mich während der Autofahrt die TomTom-Ansagen phonetisch abgekürzter Wortklänge wie «Oberwil-Li-Li» immer wieder zum Schmunzeln.

Dominic Schnyder, der die Oberhand über die sogenannte Sprachsynthese hat, führt mich durch die Räumlichkeiten des Schweizer Sprachlabors an der Baslerstrasse in Zürich-Altstetten. Die eigentlichen Aufzeichnungsstudios wirken eher unspektakulär und klein. Platz ist für höchstens eine sprechende Person. Die Wände sind von dickem schwarzen Gummischaumstoff abgedichtet.

Wer qualifiziert sich für eine Stimmaufzeichnung?

Das Recruiting-Verfahren für geeignete Sprecher der über 80 verschiedenen Sprachen erfolge über verschiedene Agenturen. Dabei sei das Auswahlverfahren recht streng: Die gesprochene Sprache müsse gewisse Grundeigenschaften erfüllen. So dürfe ein Sprecher nicht zu stark guttural oder nasal sprechen, sagt Schnyder. In einem nächsten Schritt sprechen rund 40-50 ausgewählte Personen etwa einen Tag lang verschiedenste Sätze ein. Schlussendlich seien aber nur jeweils vier bis fünf Sprechende im Rennen. Das letzte Wort hätten die Linguisten, welche eng am Entscheidungsprozess beteiligt sind. Die Profikandidaten sprechen danach pro Woche rund fünf mal vier Stunden verschiedenste Sätze ein.

Nächste Seite: Die Nachbearbeitung der Aufzeichnung

Werbung

KOMMENTARE

Keine Kommentare

KOMMENTAR SCHREIBEN

*
*
*
*

Alles Pflichfelder, E-Mail-Adresse wird nicht angezeigt.

Die Redaktion hält sich vor, unangebrachte, rassistische oder ehrverletzende Kommentare zu löschen.
Die Verfasser von Leserkommentaren gewähren der NMGZ AG das unentgeltliche, zeitlich und räumlich unbegrenzte Recht, ihre Leserkommentare ganz oder teilweise auf dem Portal zu verwenden. Eingeschlossen ist zusätzlich das Recht, die Texte in andere Publikationsorgane, Medien oder Bücher zu übernehmen und zur Archivierung abzuspeichern.