Schmeicheleien von Chatbots sind gefährlich
Davor warnen Forscher der Stanford University und der Carnegie Mellon University in einer kürzlich im Fachjournal «Science» veröffentlichten Studie. Das Problem entsteht durch eine fatale Eigenschaft der meisten Chatbots: Sie reden ihren Nutzern gerne nach dem Mund und bestärken so deren Meinung - egal, ob diese richtig oder falsch ist. Derart bestärkt, sind sie nur wenige User bereit, ihre Ansichten zu ändern, auch wenn es gute Argumente dafür gibt.
KI-Bestärkung als Risiko
Die Ergebnisse «unterstreichen die Notwendigkeit von Rahmenwerken zur Rechenschaftspflicht, die Schmeichelei als eigenständige Ursache von Schäden anerkennen und bekämpfen», so die Autoren. Die Forschung zu sozialen Auswirkungen von KI hat zunehmend die Aufmerksamkeit auf die Schmeichelei in grossen KI-Sprachmodellen (Large Language Model, LLM) gelenkt. Sie neigen dazu, Nutzer übermässig zu bestätigen, ihnen zu schmeicheln oder ihnen zuzustimmen.
Während dieses Verhalten oberflächlich betrachtet harmlos erscheinen mag, deuten neue Erkenntnisse darauf hin, dass es ernsthafte Risiken gibt, insbesondere für schutzbedürftige Personen, bei denen übermässige Bestätigung schädliche Folgen hat und sogar zu selbstzerstörerischen Aktivitäten bis hin zum Selbstmord führen kann.
Fragwürdiger Beziehungsrat
Gleichzeitig greifen KI-Systeme immer tiefer in den Alltag ein und dienen oft als Quelle für Ratschläge und persönliche Unterstützung. So wenden sich zahlreiche Menschen an KI, um Gespräche zu führen und Tipps in Beziehungsfragen zu bekommen. In solchen Situationen sind kriecherische, unterwürfige, schmeichlerische Antworten besonders gefährlich, da übermässige Bestätigung fragwürdige Entscheidungen verfestigen, ungesunde Überzeugungen verstärken und verzerrte Realitäten legitimieren können. Doch trotz dieser Gefahren ist soziale Unterwürfigkeit in KI-Modellen nach wie vor kaum erforscht.
Um diese Lücke zu schliessen, entwickelten Stanford-Informatikerin Myra Cheng und ihre Kollegen ein Verfahren zur Bewertung sozialer Unterwürfigkeit, das sowohl deren Verbreitung in gängigen KI-Modellen als auch deren reale Auswirkungen auf die Nutzer untersucht.
Anhand von Beiträgen aus der Reddit-Community «AITA» bewerteten die Forscher das Verhalten von elf weit verbreiteten KI-basierten LLMs führender Unternehmen wie OpenAI, Anthropic und Google. Dabei stellten sie fest, dass diese Systeme die Meinungen der Nutzer um 49 Prozent häufiger bestätigen als Menschen - selbst bei Täuschungsversuchen und illegalen Ansichten.
Eine Interaktion reicht aus
In zwei nachfolgenden Experimenten untersuchten die Autoren daraufhin die verhaltensbezogenen Konsequenzen solcher Ergebnisse. Demzufolge waren Teilnehmer, die in zwischenmenschlichen Szenarien, insbesondere bei Konflikten, mit einer unterwürfigen KI interagierten, bereits nach nur einer Interaktion stärker von der Richtigkeit ihrer Meinung überzeugt und weniger geneigt, diese zu ändern. Zudem bewerteten dieselben Teilnehmer die schmeichelhaften Antworten als hilfreicher und vertrauenswürdiger als jene von Menschen. (pressetext.com)