Untersuchung 27.07.2020, 08:56 Uhr

Sprachassistenten hören öfter mit als gedacht

Sprachassistenten springen nicht nur auf das offizielle Kommando an, sondern auch auf zahlreiche ähnlich klingenden Begriffe. Dies zeigt eine Studie von deutschen Forschern.
Sprachassistenten hören nicht nur auf den offiziellen Trigger-Befehl
(Quelle: RUB/Marquard)
Sprachassistenten von Amazon, Google, Microsoft und Apple reagieren nicht nur auf die offiziellen Trigger-Befehle wie «Alexa», «Ok, Google», «Hey Cortana» oder «Siri» sondern auch auf gut 1000 ähnlich klingende Begriffe. Das hat zur Folge, dass die Helfer öfter mithören und auf eine Frage oder einen Befehl warten.
Welche Wörter und Wortsequenzen Sprachassistenten versehentlich anspringen lassen, haben Forscherinnen und Forscher Horst Görtz Institut für IT-Sicherheit (HGI), das der Ruhr-Universität Bochum (RUB) angegliedert ist, und dem Bochumer Max-Planck-Instituts (MPI) for Cyber Security and Privacy untersucht. Sie erstellten eine Liste von englischen, deutschen und chinesischen Begriffen, die von verschiedenen Sprachassistenten wiederholt als Aufforderung zum Zuhören fehlinterpretiert wurden.
Das Problem dabei: Immer wenn die Systeme anspringen, schneiden sie eine kurze Sequenz des Gesagten mit und übermitteln die Daten an den Hersteller, teilweise ohne dass die Nutzerinnen und Nutzer das bemerken. Die mitgelieferten Audioschnipsel werden dann von Angestellten der Konzerne transkribiert und überprüft. So können Fetzen von sehr privaten Unterhaltungen bei den Herstellerfirmen landen.

«Tatort»-Staffel als Audiomaterial

Die IT-Expertinnen und -Experten testeten die Sprachassistenten von Amazon, Apple, Google, Microsoft und Deutscher Telekom sowie drei chinesische Modelle von Xiaomi, Baidu und Tencent. Sie spielten ihnen stundenlang deutsches, englisches und chinesisches Audiomaterial vor, unter anderem einige Staffeln aus den Serien «Game of Thrones», «Modern Family» und «Tatort» sowie Nachrichtensendungen. Auch professionelle Audio-Datensätze, die zum Training von Sprachassistenten verwendet werden, waren dabei.
Alle Sprachassistenten waren mit einer Diode versehen, die registrierte, wann die Aktivitätsanzeige des Sprachassistenten aufleuchtete, das Gerät also sichtbar in den aktiven Modus schaltete und somit ein Trigger auftrat. Ausserdem registrierte das Setup, wann ein Sprachassistent Daten nach aussen sendete. Immer wenn eines der Geräte in den aktiven Modus schaltete, protokollierten die Forscher, bei welcher Audiosequenz das der Fall war. Manuell werteten sie später aus, welche Begriffe den Sprachassistenten getriggert hatten.


Das könnte Sie auch interessieren