Spracherkennungstechnologie 16.02.2022, 06:11 Uhr

Ämter und Betriebe verstehen Mundart

Bis anhin weigern sich die Technologieriesen noch, die Schweizer Mundart zu verstehen. Zwei lokale Spezialisten beweisen mit bemerkenswerten Anwendungen, wie leistungsfähig die Spracherkennungstechnologie mittlerweile ist.
Allenfalls erlaubt die Mundartspracherkennung künftig auch die Kommunikation mit Tieren ;-)
(Quelle: Shutterstock/Jaromir Chalabala)
Sprachtechnologie ist ein Milliardengeschäft. Das bewies spätestens die Übernahme von Nuance durch Microsoft vor knapp einem Jahr. Der Windows-Konzern zahlte fast 20 Milliarden US-Dollar für eine Technologie, die ihm Vorderhand «nur» ein weiteres Standbein im Gesundheitswesen sicherte. Denn Nuance-Programme sind in US-amerikanischen Spitälern weit­verbreitet. Zum Beispiel diktieren Radiologen ihre Befunde, die Software mit Domänenvokabular transkribiert die gesprochenen Gutachten und nimmt den Ärzten so viel Arbeit ab. Ein zweites Anwendungsgebiet ist die Juristerei: Nuance bringt ebenfalls Spezialvokabular für Anwälte mit, damit sie ihre Aktennotizen und Gerichts­anträge nicht tippen (lassen) müssen. Jedoch schliesst sich die Frage an: Sind Sprachtechnologie und Fachwortschatz tatsächlich die vielen Milliarden wert, die Microsoft bezahlt hat? Oder steckt mehr hinter der Akquisition?
Der Trend in den sozialen Medien, anstatt Text- kurze Sprachnachrichten zu senden, lässt bis anhin sowohl Apple als auch Google kalt. Sie könnten mit ihren Sprachtechnologien durchaus auch die getippten Nachrichten vorlesen – und dem User das Tippen abnehmen, indem gesprochene Chat-Botschaften verschriftlicht werden. Beides sind Zukunftsszenarien, obwohl die Technologie vorhanden ist. Alexa, Google Assistant, Siri stehen parat. Microsofts Cortana ebenfalls. Jedoch sprechen die wenigsten User mit ihrem Windows-PC. Mit der Nuance-Akquisition hat Microsoft nun signalisiert, welche Bedeutung der Konzern der Sprachschnittstelle künftig zumisst.

Big Tech versteht die Schweiz nicht

Wer den direkten Draht zum Kunden hat, kann den maximalen Erfolg erzielen. Amazon hat Alexa, Apple das iPhone (und Siri) und Google die Suchmaschine (und Google Assistant). Microsoft besitzt auf dem Desktop ein Quasimonopol. In Zeiten von Home Office und täglichen Videokonferenzen sollte die Sprache als Interaktionsmethode wichtiger werden. Mit einer kostenpflichtigen Teams-Integration könnte sich Microsofts Akquisition schnell rechnen.
Ob dieses Szenario auch in der Schweiz zur neuen Realität wird, ist fraglich. Zwar hat Microsoft mit den Rumantsch-Interfaces für Office und Windows schon bewiesen, wie wichtig dem Konzern die lokalen Sprachen sind. Ob die Nuance-Technologie nun noch Mattenänglisch, Wallisertitsch und Züridütsch lernen wird, darf bezweifelt werden. «In der Schweiz spielt Nuance aktuell keine Rolle mehr, nachdem sie sich 2017 aus dem Markt zurückgezogen haben», sagt Jürg Schleier vom Sprach­anbieter Spitch. Ein Grund für den Rückzug sei der Mangel an Schweizerdeutschkenntnissen gewesen, doppelt er nach.
Amazon, Apple, Google und Microsoft respektive Nuance scheitern am Schweizerdeutsch. Nicht so die zwei Spezialisten Recapp und Spitch, die mittlerweile schon einen beachtlichen Kundenstamm in der Schweiz auf­gebaut haben. Beide Anbieter waren und sind dafür bereit, Investitionen zu leisten und auch Zugeständnisse zu machen. «Bei Unternehmen und Behörden sind die Anforderungen deutlich höher als bei Consumer Services wie Siri, weil die Systeme das branchen- und fachspezifische Vokabular beherrschen müssen», führt Schleier aus.
Daher müssten die Sprachdialogsysteme über mehrere Monate lang fachlich trainiert werden. «Zudem sind die Anforderungen an Sicherheit um ein Vielfaches höher», so der Experte. Öffentliche Verwaltungen dürften nur Dienste nutzen, die eine Datenspeicherung innerhalb der Schweiz garantieren könnten.

Parlamentsdebatten auf Mundart

In zwölf Kantonen debattieren die Parlamentarier teilweise oder vollständig auf Mundart. Von den Reden werden typischerweise Wortprotokolle erstellt. Einige Parlamente beschränken sich aufgrund des hohen Aufwands auf Beschlussprotokolle. Denn das Transkribieren von Dialekten bedeutet einen erheblichen Mehraufwand. Statt sechs Stunden Tippzeit pro einer Stunde dauert das Verschriftlichen von Mundartdebatten bis zu neun Stunden.
Diverse Deutschschweizer Parlamente haben sich in den vergangenen Jahren dazu entschieden, die Protokollierung zu digitalisieren. Jüngstes Beispiel ist der Glarner Landrat. Die Ratsdebatten werden seit November 2021 online live übertragen. Neu können die Sitzungen auf der Website «gl.recapp.ch» auch nachträglich angeschaut und nach Stichworten durchsucht werden. Dafür transkribiert die Software des Anbieters Recapp die Tonaufnahmen der Debatten automatisch und macht sie durchsuchbar. Die Software ist laut Kanton «weitgehend» in der Lage, die im Landrat gesprochene Mundart ins Schriftdeutsche zu übersetzen, und unterstützt so die Protokollierung der Ratsdebatten. Die automatische Transkription ermöglicht Effizienzgewinne, wobei gemäss Kanton eine Schluss­redaktion weiterhin unerlässlich ist. So bleibt das schriftliche, vom Landratsbüro genehmigte Verlaufs­protokoll trotz der Sitzungsaufnahmen massgebend.
Die Luzerner Gemeinde Emmen und Pratteln im Baselbiet haben schon einige Monate mehr Erfahrung mit den digitalen Protokollen. Allerdings verzichten sie auf Videoaufnahmen. Die zwei Gemeinden verfügen vielmehr über ein Tonarchiv aller Einwohnerratssitzungen seit März 2021. Dafür nutzen sie jeweils ebenfalls die Technologie von Recapp: Die Software transkribiert die Sitzungs­aufnahmen automatisch. Das Modul «kanparl» dient dann zum Überarbeiten des Sitzungsprotokolls. Auf der Plattform «shareparl» sind letztendlich die Sitzungsaufnahmen zentral hinterlegt und können beliebig beispielsweise nach Sprechern, Datum oder auch nach Stichworten in den gesprochenen Inhalten durchsucht werden.

Strassenverkehrsamt mit «VoiceBot»

Die Mitarbeitenden des Strassenverkehrsamts Aargau erreichen täglich mehrere Hundert telefonische Anfragen. Dabei handelt es sich grösstenteils um Standardfragen, auf die es eine Standardantwort gibt. Zur Unterstützung bei der Bewältigung dieser Anfragenflut hat das Strassenverkehrsamt zusammen mit dem IT-Dienstleister AdNovum und dem Spezialisten Spitch einen Sprachroboter entwickelt. Der «VoiceBot» weiss aktuell auf 23 Fragen eine Antwort. Diese repräsentieren 30 bis 40 Prozent aller Anrufe. Dabei spielt es keine Rolle, ob die Anruferin oder der Anrufer die Frage auf Dialekt oder Hochdeutsch stellt. Der Roboter versteht beide Sprachen. Sind während der Dienstzeit alle Leitungen besetzt, können die Kundinnen und Kunden wählen, ob sie warten oder ihre Frage dem «VoiceBot» stellen wollen. Ausserhalb der Öffnungszeiten wird die Kundschaft direkt mit dem Roboter verbunden. «In den vergangenen sechs Monaten haben rund 16 000 Personen dem ‹VoiceBot› mindestens eine Frage gestellt», berichtet Sandro Fanti, Leiter Fachservices und Personal des Strassenverkehrsamts Aargau. «Wir registrieren mittlerweile eine steigende Nutzungsrate: Von anfänglich 32 Prozent sind es heute bereits 51 Prozent der Anrufer, die sich mit dem Roboter verbinden lassen.»
“Kunden sind teils überrascht, wie gut der Roboter sie versteht„
Sandro Fanti, Strassenverkehrsamt Aargau
Fanti und seine Kollegen erachten die Entwicklung als «sehr erfreulich», da es ungewohnt ist, mit einem Roboter zu interagieren. Die Reaktionen der Kundschaft sind unterschiedlich. «Vereinzelt erwähnen Kundinnen und Kunden, dass sie sehr positiv überrascht waren über die Qualität der Antwort und wie gut der Roboter sie versteht», so der Verantwortliche. Es gebe jedoch auch Rückmeldungen, dass der «VoiceBot» die Fragen nicht beantworten könne oder sie nicht richtig verstehe. Dann leite der Roboter den Anrufenden an einen Mitarbeiter weiter.
Für das Strassenverkehrsamt Aargau bietet die Technologie grosses Potenzial für die Digitalisierung von Prozessen, führt Fanti aus. Der Roboter werde nun konti­nuierlich mit weiteren Sprachakzenten trainiert sowie um zusätzliche Fragen und Antworten ergänzt. «Dank des ‹VoiceBot› können wir die in den letzten Jahren stark gestiegene Nachfrage nach unseren Dienstleistungen besser bewältigen», resümiert der Fachstellenleiter.

SBB-Sprachassistent und Swisscom-Box

Schon vor fünf Jahren lancierten die SBB und die Swisscom eigene Tests mit Mundartspracherkennung. Dabei setzten sie auf unterschiedliche Technologien. Die «Preview Version» der SBB-Mobile-App wurde um eine Fahrplanauskunft erweitert, die Dialekt verstand. Dafür wurde die Technologie von Spitch verwendet. «Die Mundartsprach­erkennung wurde nach dem halbjährigen Pilotprojekt aufgrund fehlender Nutzerzahlen wieder ausgebaut», erklärt SBB-Mediensprecherin Jeannine Egi heute. Der dann lancierte «SBB Sprachassistent» sei ein neues Projekt, betont sie. «Da der ‹SBB Sprachassistent› auf der Google-Plattform läuft, können wir nur von Google unterstützte Sprachen implementieren.» Somit werden neben Hochdeutsch dann Englisch, Französisch und Italienisch möglich sein. Bis anhin sei das Erkennen der Kombination von deutsch- und französischsprachigen Haltestellennamen eine gros­se Herausforderung gewesen. Dies sollte aber bei weiteren Sprachen keine grössere Hürde mehr darstellen, doppelt Egi nach. Im Anschluss an den laufenden Markttest sei nun geplant, den «SBB Sprachassistent» um den Billettkauf zu erweitern. Im Herbst 2022 folge der Entscheid, ob der Sprachassistent weiterbetrieben werde.
Mit der Swisscom Box konnte lange Zeit auch in Mundart gesprochen werden, mittlerweile geht das nicht mehr
Quelle: Swisscom
Ähnliche Erfahrungen hat Swisscom mit der Sprach­erkennung von Recapp gemacht. Vor fünf Jahren war eine der Neuerungen der «Swisscom TV Box» die Mundart­steuerung. Dafür hatten Mitarbeitende des Telkos Sprachaufnahmen aus der ganzen Schweiz gesammelt, mit denen die Technologie trainiert wurde. Mit der Erneuerung der Box wurde aber auch die Mundartoption entfernt. Heute versteht der «Voice Assistant» der Swisscom-Box nur noch Hochdeutsch, Englisch, Französisch und Italienisch.
Der frühere Swisscom-Partner Recapp hat sich mittlerweile ein zweites Standbein aufgebaut. Neben dem Protokollieren von Parlamentsdebatten leistet die Walliser Lösung auch Journalisten gute Dienste: «töggl» transkribiert auf Mundart geführte Interviews und übersetzt sie in hochdeutschen Text. Ein Kunde ist das Schweizer Radio und Fernsehen (SRF). Anhand des SRF-Archivs mit Tausenden Stunden Fernseh- und Radiosendungen lernt «töggl», die Dialekte der Deutschschweiz zu verstehen.

«Superkräfte» für die Kundenberatung

Mehrere Finanzdienstleister in der Schweiz arbeiten für unterschiedliche Anwendungsfälle mit Sprachtechnologie. Dabei setzen sie allesamt auf den Anbieter Spitch, einerseits wegen der Option, ein fachspezifisches Vokabular nutzen zu können, und andererseits wegen der Datenverarbeitung in der Schweiz. So empfängt beim Kreditkartenherausgeber Swisscard der Computer jeden Anrufer nach dem ersten Klingelton. Die Sprachlösung fragt nach dem Grund des Anrufs und verarbeitet die auf Schweizerdeutsch oder Hochdeutsch gesprochene Antwort automatisch. Das Kunden­anliegen wird in Echtzeit ins Hochdeutsche transkribiert und an den für das Anliegen bestqualifizierten Kundendienstagenten weitergeleitet. Der Agent erhält das Transkript als Pop-up-Meldung auf seinem Bildschirm. Dadurch verringert sich die Bearbeitungszeit erheblich. Für Swisscard verfügt die Lösung mittelfristig über das Potenzial, einfache Kundenanliegen wie Kartensperrungen vollautomatisch abzuwickeln.
Die Mitarbeitenden der Basler Versicherungen haben dank Spracherkennung neu «Superkräfte»
Quelle: Basler Versicherung
Die Basler Versicherungen nutzen einen zusammen mit dem Partner NTT Data und Spitch entwickelten Sprach­assistenten für die telefonische Kundenbetreuung im Geschäftsbereich «Nichtleben». In diesem Bereich verzeichnet die Versicherung jährlich rund 450 000 Anrufe. Wenn es sich beim Anliegen des Kunden um eine spezifische Fragestellung handelt, wird er mit dem Sprachassistenten verbunden. Dann kann der Anrufer sein Anliegen in Deutsch oder Mundart nennen, woraufhin der Com­puter den Kunden an den zuständigen Sachbearbeiter weiterleitet. Dieser erhält ein Transkript auf dem Bildschirm, sodass er vorbereitet in das Gespräch gehen kann. «Sowohl seitens unserer Kunden als auch bei unseren Mit­arbeitenden wird das neue System sehr gut akzeptiert», sagt Beate Hofferbert-Junge, Bereichsleiterin Kunden­service Nichtleben bei den Basler Versicherungen. Die Mit­arbeitenden würden sogar davon sprechen, dass ihnen der Sprachassistent zu «Superkräften» verhelfe. Er unterstütze sie dabei, positive Kundenerlebnisse zu schaffen, ohne dass Kunden auf Einfachheit, Empathie und Menschlichkeit sowie Unkompliziertheit verzichten müssten.

Im Gespräch mit der Banking-App

Im Vergleich mit Swisscard und den Basler Versicherungen geht die St. Galler Kantonalbank weiter bei der Anwendung von Sprachtechnologie. Die Ostschweizer haben ihre Banking-App um einen Sprach-Button erweitert. Neu können Kundinnen und Kunden ihre Abfragen im Finanz­assistenten auch per Sprache auslösen. Dabei kommt ebenfalls Spitch-Technologie zum Einsatz. Den St. Gallern war wichtig, dass der Sprachassistent auch Schweizerdeutsch versteht. «Unsere Kunden sprechen mit uns als regional verankerte Bank Schweizerdeutsch. Dieses Heimatgefühl wollten wir auch in der App abbilden», betont Nils Reimelt, Leiter Digital Banking der St. Galler Kantonalbank.

Migros Bank: Sprache als ID

Die Migros Bank identifiziert ihre Kunden auf Wunsch auch mit «Stimmbiometrie»
Quelle: Migros Bank
Die Migros Bank macht sich Sprachtechnologie zunutze, indem sie ratsuchende Kunden anhand ihrer Stimme identifiziert. Die «Stimmbiometrie» ist eine Anwendung der Spitch-Lösung, die nach Angaben des Sprachspezialisten ein sehr hohes Mass an Sicherheit bietet. Das Stimm­profil ist für jede Person einzigartig und damit sicherer als die Identifikation durch Sicherheitsfragen. Die Migros Bank hat dafür gesorgt, dass das Stimmprofil nicht «gestohlen» oder missbraucht werden kann. Das Profil kann nur von der auf den Bank-Servern installierten Spitch-Lösung gelesen und verwendet werden.
Stimmt der Kunde zu, legt die Migros Bank einmalig ein Stimmprofil an. Beim nächsten Anruf im Contact Center der Bank wird seine Livestimme im Hintergrund mit seinem Stimmabdruck verglichen. Der Check dauere wenige Sekunden, so die Bank. Ist die Prüfung erfolgreich, erhält der Bankangestellte ein positives Signal auf seinem Bildschirm und kann mit der Kundenberatung beginnen.
Der Aspekt der lokalen Datenspeicherung war ein Kriterium für die Auswahl der Technologie, so die Migros Bank. Die Entscheidung für die Spitch-Lösung fiel, weil alle Komponenten in der Schweiz entwickelt und an die Bedürfnisse der Bank angepasst wurden und die Lösung vor Ort installiert wird. So werde sichergestellt, dass keine Kundendaten die Schweiz oder die Migros Bank verlassen. Ein weiterer Grund war die Mehrsprachigkeit: Für die Kundenidentifikation wird neben Französisch auch Hochdeutsch, Italienisch und Schweizerdeutsch unterstützt.

Amag: Schneller beim Kunden

Das «Parts Competence Center» der Amag Import erreichen pro Tag bis zu 2000 Anrufe. Die Kunden sind auf der Suche nach Ersatzteilen oder wünschen persönliche Beratungen. Früher hatten die Kunden zu Beginn der tele­fonischen Bestellung dem Amag-Sachbearbeiter die 17-stellige Fahrzeugerkennungsnummer vorzulesen. Der Mit­arbeiter gab diese Nummer dann in sein System ein und identifizierte das fragliche Fahrzeug. Erst dann begann jeweils das eigentliche Gespräch über die Bestellung.
Der Sprach-Computer fragt bei Amag Import zuerst automatisch die Fahrzeugerkennungsnummer ab
Quelle: Amag
Mit Spitch hat Amag eine Lösung entwickelt, die den Einstieg automatisiert. Der Anruf erreicht neu ein Sprachsystem, das die Fahrzeugerkennungsnummer abfragt. Diese Information kann in Schweizerdeutsch oder Hochdeutsch erfolgen. Dann erscheinen die fraglichen Fahrzeugdaten auf dem Bildschirm des Amag-Mitarbeiters, der sofort mit der Beratung beginnen kann. Diese Vereinfachung des Einstiegsprozesses hat für Amag-Kunden Effizienzsteigerungen dank einer deutlich verkürzten Wartezeit zur Folge. «Durch die Spracherkennung können wir entstehende Effizienzen nutzen, um bei den Beratungsgesprächen ein höheres Serviceniveau bei gleichbleibendem Personaleinsatz zu realisieren. Das bietet einen Mehrwert für den Kunden, während die Kosten gleichbleiben», resümiert Frank Kremer, Manager Parts Competence Center bei Amag Import. Die bisherigen Erfahrungen werden von Amag als durchwegs positiv gewertet.



Das könnte Sie auch interessieren