28.10.2015, 14:34 Uhr

So entsteht eine Computerstimme

Nuance Communications AG lud Computerworld zu einem Rundgang durch sein Sprachlabor in Zürich ein.

«Sprache fasziniert uns alle irgendwie», sagt Johan Wouters, Leiter der Sprachentwicklung von Nuance Communications Switzerland auf meine Begeisterung hin, welch komplexe Mechanismen beim Substrat eines «Sprachwurms» von acht aufgezeichneten Sprachstunden anfallen. Nuance, ehemals eine kleine Scan-Software-Firma aus den Neunzigern, unterhält heute weltweit mehrere Sprachlabors, in Europa unter anderem in Deutschland, Belgien, Italien, Österreich und der Schweiz. Mit diversifizierter Ausrichtung auf verschiedenste Unternehmenszweige wie Healthcare, Autoindustrie und Smartphone-Business findet man Spracherkennungstechnik von Nuance mittlerweile in vielen Alltagsgeräten: etwa in der Siri-Konkurrentin «S-Voice» von Samsung, in der bekannten Tastatur-App Swype oder auch in neueren Panasonic-Fernsehern. Sprachbedienung im Alltag als visionäres Ziel von Nuance Die visionäre Anspielung auf eine übergeordnete Mission hin, durch Sprache den Umgang mit Technik im Alltag intelligenter zu gestalten, liess mich im Gespräch zunächst unbeeindruckt: Denn Spracherkennung im Alltag ist noch längst nicht da, wo sie sein sollte. Rudimentär betrachtet, frage ich Siri oder Google nur selten gerne, was ich demnächst im Kino sehen möchte, zumal kontextbasierte Informationsanzeige noch immer nicht funktioniert. Statt eine konkrete Koordinate will mir Siri immer Listen anzeigen. Zudem bringen mich während der Autofahrt die TomTom-Ansagen phonetisch abgekürzter Wortklänge wie «Oberwil-Li-Li» immer wieder zum Schmunzeln. Dominic Schnyder, der die Oberhand über die sogenannte Sprachsynthese hat, führt mich durch die Räumlichkeiten des Schweizer Sprachlabors an der Baslerstrasse in Zürich-Altstetten. Die eigentlichen Aufzeichnungsstudios wirken eher unspektakulär und klein. Platz ist für höchstens eine sprechende Person. Die Wände sind von dickem schwarzen Gummischaumstoff abgedichtet. Wer qualifiziert sich für eine Stimmaufzeichnung? Das Recruiting-Verfahren für geeignete Sprecher der über 80 verschiedenen Sprachen erfolge über verschiedene Agenturen. Dabei sei das Auswahlverfahren recht streng: Die gesprochene Sprache müsse gewisse Grundeigenschaften erfüllen. So dürfe ein Sprecher nicht zu stark guttural oder nasal sprechen, sagt Schnyder. In einem nächsten Schritt sprechen rund 40-50 ausgewählte Personen etwa einen Tag lang verschiedenste Sätze ein. Schlussendlich seien aber nur jeweils vier bis fünf Sprechende im Rennen. Das letzte Wort hätten die Linguisten, welche eng am Entscheidungsprozess beteiligt sind. Die Profikandidaten sprechen danach pro Woche rund fünf mal vier Stunden verschiedenste Sätze ein. Nächste Seite: Die Nachbearbeitung der Aufzeichnung Algorithmus poliert sprachliche Unebenheiten Die riesige Datenmenge zusammenhangsloser Sätze und Wörter rasselt zuletzt im Sprachsynthese-Labor durch einen Algorithmus. Das Videoschnitt-ähnliche Programm reduziert die Aufzeichung auf die wichtigsten Wortlaute einer ganzen Sprache und «komprimiert» die Wochenaufnahme auf einen Silbenschwall von acht Stunden. Die Software filtert dabei auch etwaige Unebenheiten, bedingt durch Lispeln oder nasales Sprechen, aus. Der extrahierte Sprachwurm dient bei der Digitalisierung quasi als Inventar der exakten Wortlaute aller vor- oder nachfolgender Silben einer Sprache. «Ich kann eigentlich auch eine chinesische Stimme selber bauen», lächelt Schnyder. «Das einzige, was ich beherrschen muss, ist die phonetische Schrift», so der Sprachsynthese-Chef. Chinesisch sei aber tatsächlich schwieriger, weil einzelne Wörter je nach Tonlage etwas anderes bedeuten können, entgeget man mir auf meine kritische Frage. Daher unterhalte man in Shanghai ein zusätzliches Labor mit Spezialisten. Lebendige Wortsilben Tatsächlich kann sich das Resultat durchaus hören lassen. Johan Wouters tippt für mich in einer Enterprise-Diktier-Applikation längere Sätze in ein Editorfeld. Die Software-Stimme spricht das Getippte in einer kaum monosyllabischen Sprechweise nach. Einzelne Wörter, teils auch komplexere Komposita, werden sehr lebendig gesprochen. Als sässe eine Person direkt vor mir. Trotz meiner Zweifel an der Authentizität der Demo war ich doch für einen Moment sehr verblüfft. Man versicherte mir nachträglich, dass die Demo keineswegs eingespielt war und anlässlich des Tests beliebige Sätze von einer Webseite ins Editorfeld rüberkopiert wurden. Und die Konkurrenz? Bei rund 2000 Entwicklern weltweit und einer hauptsächlich B2B-orientierten Geschäftsführung sei Nuance nicht direkt mit Google oder Apple vergleichbar. Als grösste Konkurrenz in der Autoindustrie erachte man die beiden US-Techkonzerne nicht, so Wouters. Man sei stärker darauf ausgerichtet, was Autohersteller als fertige Sprachassistentenz-Software beanspruchen. Die Software verlagere sich dabei je länger je mehr in die Cloud und werde damit auch abhängiger von den mobilen Netzen. Das klassische Software-Geschäft für den Endverbraucher gehöre schon länger nicht mehr zum Kern der Unternehmensausrichtung. «Die Software ist höchstens noch dazu da, um Kunden zu aufzuzeigen, was alles mit dem Endprodukt möglich ist», meint Nuance etwas prahlerisch. Mal sehen. Mit dem nächsten Smart TV, dem ich auf Weihnachten liebäugle, werde ich aus Neugier wieder einmal aufs Exempel ein paar Worte wechseln. In diesem Bereich will ich die Sprachübermittlung aber gerne in einer sicheren Cloud wissen. Denn für mehr kontextbezogene Informationen muss das System auch mehr Daten seines Anwenders kennen. Deren Auslagerung in eine Cloud sollte von den jeweiligen Herstellern ebenfalls mit schweizerischer Genauigkeit geplant sein.

Autor(in) Jens Stark

So entsteht eine Computerstimme

Aktuelle Jobs