Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Lesedauer 5 Min.

Transkribieren in Word

Beim ganzen Hype und Anti-Hype rund um generative KI geht oft vergessen, dass es durchaus einfache, nützliche KI-Werkzeuge gibt. Die Transkription in Microsoft Word ist eine davon. Wir zeigen, wie Sie das Feature verwenden, was es kann und was nicht.
Bild 1: In der Webversion kann die Transkription in jedem Betriebssystem verwendet werden
© (Quelle: Erstellt mit Dall-E)

Gesprochene Sprache in Text zu übersetzen (und umgekehrt) gehört zu den älteren Disziplinen der KI (künstliche Intelligenz). Entsprechende Werkzeuge sind seit vielen Jahren auf dem Markt und stellenweise sogar ausgezeichnet. Mit dem aktuellen KI-Schub hat sich aber noch einmal viel getan: Das gilt einerseits für die Qualität der Transkriptionen, andererseits aber auch für die Verbreitung und Implementation dieser Funktionen. Microsoft arbeitet schon seit Längerem mit Transkriptionsfunktionen, etwa der Diktierfunktion in Word. In den vergangenen Jahren hat sich die Entwicklung allerdings deutlich intensiviert, angefeuert durch neue Sprachverarbeitungsprodukte wie ChatGPT oder DeepL.

Im Vergleich zur bisherigen Diktierfunktion ist die Transkriptionsfunktion in Word etwas flexibler. Sie kann sowohl mit Live-Sprache als auch mit bestehenden Aufnahmen arbeiten. In beiden Fällen wird die Audio­aufnahme in die Microsoft-Cloud geladen und dort verarbeitet, was Sie bezüglich Datenschutz bedenken sollten (siehe auch nächster Abschnitt). Sie erhalten zudem eine Kopie der Aufnahme in Ihrer OneDrive-Cloud. Diese können Sie nach der Transkription behalten oder löschen.

Derzeit ist die Transkription in Word nur für zahlende Microsoft-365-Kunden freigeschaltet und funktioniert in der Word-Desktop-App für Windows und in der Web-App, Bild 1. Mac- und Linux-Nutzer müssen also die Webversion von Word verwenden.

Bild 2: Zum Transkribieren werden die Aufnahmen zu Microsoft gesendet © Quelle: PCtipp.ch

Ob Sie die Transkription nutzen können, finden Sie einfach heraus: Öffnen Sie Word und suchen Sie im Reiter Start nach der Schaltfläche Diktieren (siehe Bild 1). Hat es unter dem Mikrofon-Symbol einen kleinen Pfeil nach unten, können Sie die Transkription dort auswählen. Falls nicht, haben Sie keinen Zugriff auf das Feature.

Aktuell dürfen Microsoft-365-Kunden bis zu 300 Minuten Audio oder Video pro Monat kostenlos transkribieren. Bis vor einigen Wochen war die Transkription ganz kostenlos. Ein Geschäftsmodell für mehr Minuten gibt es bisher nicht, dürfte aber nicht allzu weit weg sein. Gerade im Business-Bereich besteht für Microsoft grosses Potenzial für kostenpflichtige Transkriptionen.

Der Datenschutz

Bild 1: In der Webversion kann die Transkription in jedem Betriebssystem verwendet werden © Quelle: PCtipp.ch

Microsoft verwendet (wie vergleichbare Anbieter auch) einen eigenen Cloud-Dienst für die Transkription von Audio. Dafür werden Ihre Aufnahmen auf einen Microsoft-Server hochgeladen und dort verarbeitet. Laut Microsoft werden die Aufnahmen ausschliesslich für den Zweck der Transkription verarbeitet und nicht länger gespeichert als nötig. Wie immer gilt: Sofern Sie Microsoft in dieser Hinsicht vertrauen, ist der Dienst unproblematisch. Völlige Gewissheit gibt es allerdings nicht. Überlegen Sie sich bei besonders schützenswerten Daten, ob die Transkription per Cloud-Dienst wirklich unumgänglich ist. Wollen Sie die Transkription im geschäftlichen Kontext verwenden, klären Sie unbedingt vorher ab, ob dies seitens des Unternehmens erlaubt ist oder ob Regeln und Einschränkungen dazu bestehen, Bild 2.

So gehts

Das Transkribieren in Word ist einfach: Navigieren Sie zum Reiter Start und klicken Sie unter Diktieren auf den kleinen Pfeil, Bild 3. Dort sehen Sie die Option Transkribieren. Diese öffnet ein Menü, in dem Sie zwei Einstellungen vornehmen können. Da wäre zunächst die Sprachwahl. Hier bestimmen Sie, in welcher Sprache Sie transkribieren möchten. Mehrsprachiges Transkribieren ist bisher leider nicht möglich. Denken Sie dabei auch daran, dass Fremdwörter, Lehnwörter und ähnliche sprachübergreifende Formen die Transkriptionsfunktion vor Probleme stellen können.

Bild 2: Zum Transkribieren werden die Aufnahmen zu Microsoft gesendet © Quelle: PCtipp.ch

Nachdem Sie die Sprache ausgewählt haben, müssen Sie eine zweite Entscheidung treffen: Wollen Sie eine Audiodatei hochladen oder direkt über das Mikrofon diktieren. Bei Ersterem laden Sie via Schaltfläche Audio hochladen eine Audiodatei auf die Microsoft-Server hoch, die danach transkribiert wird. Word unterstützt gängige Dateiformate wie WAV, MP3, M4A und auch MP4-Videodateien. Word verarbeitet anschliessend die Datei. Sobald dies erledigt ist, erhalten Sie eine Vorschau der Transkription und können diese mit der Schaltfläche Zu Dokument hinzufügen in das Word-Dokument einfügen. Dabei haben Sie die Wahl, ausser dem Text auch Metadaten wie die Sprecher oder Zeitangaben einzufügen.

Mit der zweiten Option nehmen Sie wie bei der Diktierfunktion Audio von Ihrem Mikrofon auf. Die Datei wird an die Microsoft-Server geschickt, verarbeitet und Ihnen als Vorschau zurückgesendet.

Bei beiden Varianten können Sie den Text entweder vor oder nach dem Einfügen in das Dokument bearbeiten. Das empfiehlt sich, da die Transkription von Word zwar gut, aber noch lange nicht perfekt ist.

Smartphones können via Tastatur schon länger gesprochene Sprache umwandeln

© PCtipp.ch

Tipp: Google Docs und mobile Geräte

Google Docs (docs.google.com) kann bislang nicht transkribieren (Stand Mitte Juli 2024), hat aber eine Diktierfunktion. Diese finden Sie unter Tools/Spracheingabe. Mit einem Klick darauf erhalten Sie einen schwebenden Aufnahmeknopf. Klicken Sie einfach auf den Knopf, um das Diktat zu beginnen. Direkt über dem Knopf können Sie die Sprache anpassen. Damit es mit der Aufnahme klappt, müssen Sie Ihrem Browser Zugriffsrechte auf Ihr Mikrofon erteilen.

Auf Android- und iOS-Geräten können Sie die Diktierfunktion direkt in der Tastatur verwenden. Der Vorteil davon: Sie können die Spracheingabe überall nutzen, wo Sie sonst tippen können; also nicht nur in Apps, die Spracheingabe explizit unterstützen. Tippen Sie einfach auf Ihrer Tastatur auf das Mikrofon-Symbol (siehe Bild). Beim iPhone befindet es sich standardmässig rechts unten, bei Samsung links unten. Eventuell müssen Sie die Spracheingabe vorher manuell in den Einstellungen Ihres Smartphones aktivieren.

Fazit: praktisch und gut

Bild 1: In der Webversion kann die Transkription in jedem Betriebssystem verwendet werden © Quelle: PCtipp.ch

Microsoft macht mit dem Transkriptions-Feature einen ordentlichen Schritt nach vorn. Die KI-unterstützte Verarbeitung liefert Resultate, die mit relativ wenig Bearbeitung brauchbar sind. Mühe bekundet Microsoft mit den üblichen Schwierigkeiten, die auch andere Anbieter nachts wachhalten: Sprechererkennung, Fachausdrücke, Sprachwechsel oder Homophone (ähnlich klingende Wörter) sind Stolperfallen für die automatische Spracherkennung. Beim Transkribieren ist das etwas weniger schlimm, da es sich nicht um eine Live-Anwendung handelt. Der transkribierte Text kann gut bearbeitet werden – natürlich mit weiterer KI-Hilfe, Bild 4.

Praxis Microsoft

Neueste Beiträge

«IT-Verantwortliche brauchen 2026 einen klaren Plan» - Quotes & Thoughts
Beat Müller, Director Systems Engineering, Switzerland & Austria, Nutanix, wagt den Blick auf die kommenden Monate und schätzt IT-Trends für 2026 ein. Dabei betont er die Wichtigkeit hybrider Multicloud-Modelle und das Bedürfnis nach Datensouveränität.
3 Minuten
Falsche Krypto-Registrierung zielt auf Personendaten ab - Aufgepasst
Ein professionell gestaltetes Schreiben im Design Schweizerischen Institutionen täuscht eine angebliche Krypto-Registrierungspflicht vor und fordert Empfänger zur Eingabe persönlicher und finanzieller Daten auf.
2 Minuten
26. Jan 2026
Ganz privat im Web - Sicherheits-Tipps
Ein VPN-Service schützt Sie nicht nur beim Surfen, sondern wahrt auch Ihre Privatsphäre. Auf den folgenden Seiten erwarten Sie konkrete Produktempfehlungen und viele praktische Anwendungstipps.
9 Minuten
25. Jan 2026

Das könnte Sie auch interessieren

Showtime für Open Source beim Festival der roten Hüte - Red Hat Connect 2026
Hybrid Cloud ist der Normalfall, KI wird mit Augenmass eingesetzt und Open Source etabliert sich als strategisches Werkzeug. Dahinter steht eine lebendige Community aus Partnern, Experten und Anwendern. Genau darum ging es am Red Hat Summit in Zürich.
3 Minuten
Software wird zunehmend von KI geschrieben - Python
Künstliche Intelligenz (KI) beschert der Software-Branche enorme Einsparungen. 29 Prozent der Python-Codes werden dort bereits von KI geschrieben.
3 Minuten
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige