18.02.2011, 09:48 Uhr

Scrubs und der Schweizer Alpenclub

Martin Volk, Professor für Computerlinguistik an der Universität Zürich, im Gespräch mit Computerworld: Der Forscher beschäftigt sich mit der maschinellen Übersetzung von Film- und TV-Untertiteln - unter anderem für die US-Fernsehserie Scrubs.

Martin Volk ist Professor für Computerlinguistik an der Universität Zürich

Computerworld: Sie wurden in Deutschland geboren, haben in den 1980er Jahren in den USA studiert und unter anderem als Forschungsassistent bei Siemens in Princeton gearbeitet. Was war ausschlaggebend dafür, dass sie heute als Professor für Computerlinguistik an der Universität Zürich forschen? Martin Volk: Ich habe in der Vergangenheit in Deutschland mit Professor Michael Hess zusammengearbeitet, der heute das Institut für Computerlinguistik an der Universität Zürich leitet. Michael Hess hat mich sozusagen in die Schweiz exportiert. Der persönliche Kontakt zu ihm war also ausschlaggebend dafür, dass ich heute in Zürich forsche. CW: Wieviele Studierende hat das Institut für Computerlinguistik in Zürich? Volk: Jährlich beginnen etwa 35 Studierende Computerlinguisitk als Haupt- oder Nebenfach. Wir könnten aber gern noch einige mehr aufnehmen. Die Berufsaussichten für Computerlinguisten sind sehr gut. CW: Gibt es Kontakte zu lokal ansässigen Unternehmen? Volk: Wir haben beispielsweise eine Art Stammtisch mit Computerlinguisten der Zürcher Google-Niederlassung sowie Sprachtechnologie-Firmen wie Svox ins Leben gerufen. Im Zuge dessen finden regelmässige Treffen statt, wo wir uns untereinander austauschen. Computerworld: Wo liegen Ihre Forschungsschwerpunkte? Volk: Unser Institut befasst sich ausschliesslich mit geschriebener Sprache. Einer meiner Forschungsschwerpunkte ist die maschinelle Übersetzung. Bei einem Projekt geht es um die maschinelle Übersetzung von Film- und Fernsehuntertiteln, wo wir bereits erfolgreich Systeme für Untertitelfirmen hergestellt haben. Unsere Systeme sind dort schon seit mehreren Jahren im Einsatz und übersetzen täglich 15 Fernsehsendungen in verschiedene Sprachen. CW: Warum beschäftigen Sie sich ausgerechnet mit der Untertitelung von Film und Fernsehsendungen? Volk: Film- und Fernsehuntertitel sind besonders gut geeignet für die maschinelle Übersetzung, da sie kurz sind. Ausserdem gibt es dafür einen sehr grossen Markt. In Schweden muss beispielsweise praktisch das gesamte TV-Programm untertitelt werden. Das bedeutet täglich tausende übersetzte Wörter. Wie maschinelle Übersetzung von Untertiteln konkret funktioniert, erfahren Sie auf der nächsten Seite. CW: Also haben marktwirtschaftliche Kriterien bei diesem Projekt von Anfang an eine Rolle gespielt? Volk: Bei diesem Projekt auf jeden Fall. Es wurde von einer Untertitelfirma gesponsert – und zwar an der Universität Stockholm, wo ich von 2003 bis 2008 gearbeitet habe. Da sich unser System bewährt hat, entstand daraus die Idee, unsere Entwicklung auch anderen Untertitelfirmen anzubieten. Dafür haben wir vor zwei Jahren das Unternehmen TextShuttlegegründet. CW: Welche TV-Sendungen werden mit Ihren Systemen übersetzt? Volk: Inbesondere Fernsehserien, beispielsweise Scrubs aber auch Sendungen des Discovery Channel. Die Serien liegen in aller Regel in Englisch vor und die Firma stellt manuell schwedische Untertitel dazu her. Daraus werden dann mit unserem System dänische und norwegische Untertitel produziert. CW: Warum keine deutschen Untertitel? Volk: Bei deutschen Untertiteln sind wir momentan noch nicht vertreten. Es beginnt jetzt aber im April ein EU-Projekt, an dem wir beteiligt sind. Dort wird es auch um deutsche Übersetzungen gehen. In Deutschland ist aber im Fernsehen nicht ganz so viel untertitelt - hauptsächlich handelt es sich hier um Untertitel für Gehörgeschädigte. In Skandinavien gibt es im TV hingegen Untertitel für Hörende, so dass dort der Markt grösser ist. CW: Wie funktioniert die maschinelle Übersetzung von Untertiteln konkret?

Volk: Zunächst einmal muss man sich die Frage stellen, wie die Technologie dahinter aussieht bzw. wie das System der statistischen maschinellen Übersetzung funktioniert. Dies lässt sich intuitiv und einfach so beantworten: Man nimmt grosse Textmengen, die von Menschen übersetzt wurden. Bei dem Projekt in Stockholm hatten wir beispielsweise fünf Millionen Untertitel zur Verfügung. Das sind 50 Millionen schwedische, dänische und norwegische Wörter. Der Computer errechnet automatisch die entsprechenden Wörter – also etwa: welches schwedische entspricht welchem dänischen Wort. Danach gruppiert der Rechner jene Wörter die zusammengehören, so dass Wortsequenzen entstehen. Anschliessend wird ermittelt, wie wahrscheinlich es ist, dass eine schwedische mit der entsprechenden dänischen Wortfolge übersetzt wird. Dann wird bei der eigentlichen Übersetzung der neue Untertitel in diese Wortfolgen zerlegt und das entsprechende Material in der Zielsprache zusammengestellt. Mittels einem statistischen Verfahren wird berechnet, welche Übersetzungsvariante die Wahrscheinlichste bzw. Flüssigste und Natürlichste ist. Es wird hierbei überhaupt keine linguistische Analyse gemacht. Das ganze Verfahren ist ein Recycling-Prozess, der auf Statistik beruht. CW: Kontrolliert die Ergebnisse letzten Endes nochmal ein Mensch oder ist alles automatisiert? Volk: Am Schluss sieht sich die Ergebnisse nochmal ein Übersetzer an, der auf Untertitel spezialisiert ist. Der überprüft, ob es korrekt übersetzt ist. Wenn es falsch ist, muss er es entweder abändern oder manchmal komplett neu übersetzen. CW: Welches Einsparungspotenzial bietet Ihr System? Volk: Nach unseren Erfahrungen und Evalutionen ist die Übersetzungsarbeit mit unserem System um 25 Prozent schneller als bei der herkömmlichen, manuellen Übersetzung. CW: Die Software für die Übersetzung haben Sie selbst entwickelt? Volk: Die Applikation ist aus der europäischen bzw. weltweiten Forschung zur maschinellen Übersetzung entstanden. Die Software ist OpenSource und heisst Moses. Wir wenden dieses Programm speziell auf Filmuntertitel an. Dabei haben wir ein paar Kleinigkeiten selbst entwickelt. Unser grosser Vorteil war, dass wir mit gigantischen Untertitelmengen arbeiten und somit aus dem Vollen schöpfen konnten. CW: In welchen Bereichen forschen sie ausserdem? Volk: Der zweite Forschungsschwerpunkt sind Alpinismustexte. Hier existiert eine Brücke zwischen Digitalisierungsaktivitäten und der maschinellen Übersetzung. Das Projekt firmiert unter den Stichworten Digital Humanities bzw. Cultural Heritage. Wir entwickeln in diesem Zusammenhang Übersetzungssysteme von Deutsch nach Französisch. Diese sollen künftig dem Schweizer Alpenclub dabei helfen, seine Jahrbücher schneller, einfacher und günstiger zweisprachig anzubieten. Die Idee dahinter ist, dass wir ein System kreieren, das speziell für Alpinismustexte besser funktioniert als Google Translate. CW: Warum gerade Alpinismustexte? Volk: Hierzu sind wir über die Digitalisierungsschiene gekommen. Wir haben zusammen mit den Kollegen vom Institut für Germanistik die Jahrbücher des Schweizer Alpenclubs digitalisiert - und zwar alle Ausgaben vom Jahr 1864 bis heute. Dabei haben wir festgestellt, dass die Jahrbücher seit 1957 parallel in Deutsch und Französisch vorliegen. Dieses Material haben wir genutzt, um daraus statistikbasierte Übersetzungssysteme zu bauen. Die Daten sind sehr spannend, da sonst noch niemand mit ihnen gearbeitet hat – im Gegensatz zu vielen anderen übersetzten Texten. Auf der nächsten Seite erfahren Sie, was das Besondere an den Jahrbüchern des Schweizer Alpenclubs ist. CW: Was ist das Besondere an den Jahrbüchern des Schweizer Alpenclubs? Volk: Interessant ist vor allem, dass es sich um eine Textreihe handelt, die sich über 145 Jahre beinahe lückenlos erstreckt. Von Anfang an hatte die Publikation den thematischen Fokus auf Bergbesteigung, Bergerkundung, Reisen, Tourismus aber auch Flora und Fauna der Bergwelt. Es ist äusserst spannend nachzuvollziehen, was sich hier über die Jahre hinweg geändert hat. Beispielsweise haben wir herausgearbeitet, welche Wörter von 1930 bis 1949 verglichen mit der Zeitspanne 1880 bis 1899 in den Jahrbüchern prominent waren.

CW: Ein sehr ambitioniertes Vorhaben. Was waren denn weitere Herausforderungen bei diesem Projekt? Volk: Die Jahrbücher sind mehrsprachig. Neben dem Schwerpunkt auf Deutsch, gab es von Anfang an Dokumente in Französisch, Italienisch, Rätoromanisch, Englisch und Mundart. Weiter sind in diesen Texten einzelne Äusserungen respektive Zitate in anderen Sprachen verfasst. Beispielsweise existieren französische Texte, in denen der Bergführer in Schweizerdeutsch zitiert wird. Diese Stellen überhaupt einmal zu finden, ist computerlinguistisch interessant. CW: Untersuchen Sie weitere Aspekte dieser Alpinismustexte? Volk: Wir versuchen, sämtliche darin vorhandenen geografischen Bezeichnungen zu lokalisieren. So kann man am Ende gezielt nach einem Artikel zu einem bestimmten Gebiet suchen. Über die Georeferenzierung des Textes lässt sich also auf Texte zugreifen, die zum gesuchten Gebiet vorhanden sind. Daran arbeiten wir im Rahmen eines Dissertationsprojektes. CW: Was werden Sie mit diesen interessanten Ergebnissen machen? Sind bereits Produkte geplant? Volk: Die Ergebnisse sind nicht nur für die Schweiz interessant, sondern auch für andere Bergstaaten wie etwa Österreich oder Länder aus der Anden-Region. Derzeit gibt es zwar noch kein konkretes Produkt, aber wir haben eine Reihe von Ideen. Beispielsweise würden wir gerne etwas für mobile Geräte anbieten. Immer mehr Menschen haben ja mittlerweile auch beim Wandern ihr iPhone dabei. Hier könnte man ein Produkt entwickeln, das es ermöglicht, via Smartphone Informationen aus den Jahrbüchern des Schweizer Alpenclubs zum jeweiligen Wandergebiet abzurufen - beispielsweise: Wann wurde diese Hütte gebaut oder wer hat diesen Berg zuerst bestiegen? Das ist eine konkrete Anwendung dieser Art von Forschung. CW: Gibt es noch weitere Bereiche, in denen Sie forschen? Volk: In einem anderen Projekt beschäftigen wir uns mit Grundlagenforschung. Hierbei geht es um die Übersetzung von Spanisch in Quechua, eine indigene Sprache, die in Südamerika gesprochen wird. Wir möchten im Zuge dessen herausfinden, wie gut maschinelle Übersetzung funktionieren kann, wenn zwei Sprachen dermassen unterschiedlich aufgebaut sind. Quechua ist vom Typ her ganz anders als unsere europäischen Sprachen. Es würde uns zudem sehr freuen, wenn wir die Quechua-Community in Südamerika damit ein wenig unterstützen könnten. Es wird relativ wenig in dieser Sprache publiziert. Dazu muss man anmerken, dass Quechua keine kleine Sprache ist. Sie wird von zehn Millionen Menschen gesprochen. Allerdings ist es eine Sprache mit einer geringen Schriftkultur. Weiter gehts auf der nächsten Seite. CW: Wissenschaft muss sich heutzutage sehr oft daran messen lassen, ob sie für die Wirtschaft verwertbare Ergebnisse liefert. Wie sieht dies in Ihrer Disziplin aus? Volk: Einerseits sind wir dankbar für Projekte, die wir mit Wirtschaftspartnern zusammen durchführen können – beispielsweise jenes, das wir mit der angeprochenen Untertitelfirma zusammen realisiert haben (Anmerkung Computerworld: das Unternehmen gehört zu den grössten Untertitelfirmen der Welt, möchte namentlich aber nicht genannt werden). So sind wir an interessante Daten herangekommen. Solche Experimente hätten wir sonst nicht machen können. Der Vertrag mit dieser Firma hat immer folgendermassen ausgeschaut: Wissenschaftlich interessante Ergebnisse durften wir veröffentlichen, während kommerzielle Resultate dem Unternehmen vorbehalten blieben. Wir sind aber auch sehr dankbar dafür, dass uns der Schweizerische Nationalfonds beispielsweise beim Projekt Spanisch-Quechua unterstützt. Hier gibt es weltweit keinen Wirtschaftspartner, der dies jemals fördern würde. Zunächst steht hier ja Grundlagenforschung im Mittelpunkt und nicht ein kommerzielles Interesse. Wir versuchen also, in beiden Feldern ein Standbein zu haben – sowohl in der praktischen Anwendung als auch beim Beschreiten neuer Forschungsgebiete. So gibt es weltweit lediglich fünf Experten, die sich im Bereich der Sprachtechnologie mit Quechua befassen. Dort beackern wir also ein ganz neues Feld. CW: Wo sehen Sie die Computerlinguistik in zehn Jahren?

Volk: Die Bereiche maschinelle Übersetzung und Digital Humanities werden sich meiner Ansicht nach sehr stark entwickeln. Bei der maschinellen Übersetzung geht es in die Richtung angepasster Systeme. Das heisst, sie wird optimiert für bestimmte Anwender bzw. Textsorten. Im Internet finden sich derzeit Übersetzungssysteme ganz allgemeiner Art. Damit kann zwar alles übersetzen, aber nichts besonders gut. Wir können heute mittels statistischer Methoden Übersetzungssysteme innerhalb weniger Wochen herstellen. Voraussetzung hierfür ist, dass uns jemand grosse Textmengen - am besten zehn Millionen Wörter oder mehr - zur Verfügung stellt, die bereits übersetzt wurden. Grosse Unternehmen haben diese Übersetzungsmengen in ihren Archiven gespeichert. Sie müssen diesen Wert lediglich erkennen. CW: Treten Sie da auch offensiv an Firmen heran? Volk: Das haben wir bereits mit unserem Unternehmen TextShuttle versucht. Da haben wir mit über 20 europäischen Untertitelfirmen gesprochen. Hier sind einerseits Widerstände zu überwinden, andererseits sind die Voraussetzungen nicht immer gegeben. Diese Firmen sind teilweise in verschiedenen Sprachen aktiv. Wir benötigen aber in einem Sprachpaar eine grosse Menge an Daten, um unsere Systeme aufzubauen. Bisher sind wir hier noch nicht ins Geschäft gekommen, das kann sich künftig aber ändern. Es gibt auf jeden Fall noch Märkte, wo wir hineinkommen möchten. Wir treten auf allen Untertitelkonferenzen auf und stellen unsere Ideen vor. Es hat auch schon Proteste von Beschäftigten aus der Untertitelbranche gegeben, die sich durch uns in ihrem Job bedroht fühlen. Vonseiten des Managements ist aber immer grosses Interesse da. Spätestens ab dem Moment, wo man eine Kostenreduktion von 25 Prozent in Aussicht stellt.

Im Bereich Digital Humanities befinden wir uns im engen Kontakt mit Archiven und Bibliotheken. Mit dem Staatsarchiv Zürich haben wir ein konkretes Projekt laufen. Dabei digitalisieren wir die Regierungsratsbeschlüsse des Kantons Zürich aus den Jahren 1897 bis 1902 und bereiten diese auf. CW: Wie viele Sprachen beherrschen Sie eigentlich selbst? Volk: Gut spreche ich Deutsch, Englisch und Schwedisch CW: Vielen Dank für das Gespräch, Herr Professor Volk.

Harald Schodl

Autor(in) Computerworld Redaktion

Scrubs und der Schweizer Alpenclub

Aktuelle Jobs