Die Grenzen von Alexa, Siri, Spitch Co.

Das Start-up Spitch hat eine Spracherkennungstechnologie für Schweizerdeutsch entwickelt. Apples Siri kann mit den Dialekten nichts anfangen, ist aber teils auch eine gute Wahl.

» Von Mark Schröder , 08.03.2017 10:00.

weitere Artikel

Die Spracherkennungstechnologien von Amazon, Apple, Google und Microsoft geben einen Vorgeschmack auf das Computer-Interface der Zukunft. Der Rechner wird nicht mehr mit Fingern, Maus oder Tastatur bedient, sondern per Sprachbefehl. Obgleich Alexa, Siri & Co. bereits auf dem Markt sind, steckt die Technologie noch in den Anfängen. Denn es gibt diverse mehr oder weniger grosse Herausforderungen.

Für den Schweizer Markt ist die Spracherkennung bei Dialekten eines der grössten Probleme. Das Start-up Spitch hat sich dieser Herausforderung angenommen. Die Technik erkennt nach einem Training jeden Schweizer Dialekt, sagt Country Manager Jürg Schleier. Das Training ist allerdings die Krux, denn der Aufwand ist sehr hoch. Spitch basiert auf einer Datenbank, die pro Kunde individuell erweitert werden kann. Das hat Vor- und Nachteile. Einerseits können die Daten beim Kunden selbst platziert werden, was bei sensiblen Inhalten zum Teil erforderlich ist. Ausserdem können die Datenbanken mit kundenspezifischen Begriffen erweitert werden – oder eben mit Dialektworten aus den typischen Kundenkreisen. Laut Schleier ist die Spitch-Technologie auch in der Lage, selbst Walliserditsch zu verstehen, wenn die Datenbank entsprechende Begriffe enthält.

Dialekt und Wortschatz

Die Herausforderung ist bei Spitch, dass die Datenbank für jeden Kunden erst individuell erweitert werden muss. Dafür seien 80 bis 100 Stunden Sprachaufnahme erforderlich, sagt Schleier. Die Recordings müssen manuell annotiert werden, damit die Software zu kontextbezogenen und semantischen Interpretation fähig ist. Die Annotationen leistet entweder Spitch oder eine Gruppe von Linguisten. Nach Aussage des Country Managers sei das Crowdsourcing zwar günstiger, könne aber auch nur bei unsensiblen Inhalten angewendet werden. In beiden Fällen kommen Kosten im fünfstelligen Bereich auf den Auftraggeber zu. Sprachverarbeitung lohnt sich entsprechend erst ab mittelgrossen Unternehmen oder beispielsweise Call Centern.

Immerhin: Mit der Spitch-Lösung können dem Computer (und der Datenverarbeitung) der Dialekt und die Fachbegriffe erschlossen werden. Mit Alexa, Cortrana und Siri müssen die User hochdeutsch sprechen und sind auf den Wortschatz beschränkt, den der Anbieter bereits kennt. Ergänzungen sind (noch) nicht möglich.

Nächste Seite: Protokoll auf Bünder Tüütsch

Werbung

KOMMENTARE

Keine Kommentare

KOMMENTAR SCHREIBEN

*
*
*
*

Alles Pflichfelder, E-Mail-Adresse wird nicht angezeigt.

Die Redaktion hält sich vor, unangebrachte, rassistische oder ehrverletzende Kommentare zu löschen.
Die Verfasser von Leserkommentaren gewähren der NMGZ AG das unentgeltliche, zeitlich und räumlich unbegrenzte Recht, ihre Leserkommentare ganz oder teilweise auf dem Portal zu verwenden. Eingeschlossen ist zusätzlich das Recht, die Texte in andere Publikationsorgane, Medien oder Bücher zu übernehmen und zur Archivierung abzuspeichern.