Crowd Computing: IBM korrigiert historische Texte

Bei Frakturschrift kommt Texterkennungs-Software ins Schleudern. Um historische Schriften digital zu erfassen, sind viele Korrekturen notwendig. Ein IBM-Programm erlaubt Berichtigungen durch die «Crowd».

Die «Aufschlüsse zur Magie» von Karl von Eckartshausen ist ein gescanntes Buch
  

weitere Artikel

» Von Mark Schröder, 27.08.2010 08:35.

Moderne Texterkennungs-Software wie Abbyy FineReader oder Nuance OmniPage erreicht im Test bei sauberen, maschinengeschriebenen Vorlagen Erkennungsraten von 95 Prozent und mehr. Bei Testscans von Texten in Frakturschrift sinkt die Rate auf 50 Prozent und weniger. Dann muss der Korrektor viel Arbeit und Zeit aufwenden, um einen lesbaren, durchsuchbaren und reproduzierbaren Text zu erhalten. Das gilt auch für verschmutzte Originale oder von Hand geschriebene Druckbuchstaben.

Im Rahmen des EU-Forschungsprojekts «Impact» (Improving Access to Text) entwickeln Bibliotheken, Forscher und Unternehmen Technologien zur Digitalisierung von historischen Texten. Das Ziel ist den Initiatoren zufolge ein durchsuchbares Online-Archiv, in dem auch digitale Kopien der Bücher und Dokumente bezogen werden können. Vergleichbare Projekte beschränken sich beim Archivieren der Texte auf die rein fotografische Abbildung. Die Suche nach Stichwörtern ist dann höchstens in den etwaigen Metadaten möglich.

IBMs Crowd Computing
Das Einlesen der historischen Druckwerke geschieht bei «Impact» künftig in zwei Phasen: in der ersten verarbeitet die OCR (Optical Character Recognition) hoch aufgelöste Scans der Originaltexte und markiert unsichere Zeichen elektronisch. Dann kommt ein kollaboratives Online-Korrektursystem zum Einsatz, das Experten von IBM Reseach in Haifa entwickelt haben. In das System können sich die Projektbeteiligten von Bibliotheken und Universitäten einklinken, um gemeinsam die Korrekturen zu beschleunigen. Überdies ist die Technologie «lernfähig», so dass zum Beispiel einmal manuell korrigierte Schriftzeichen hinterher automatisch verarbeitet werden.

Projektkoordinatorin Hildelies Balk von der Koninklijke Bibliotheek in Den Haag verspricht sich von dem System, dass es den Nachbearbeitungsaufwand «entscheidend reduziert». IBM-Forscher Tal Drory will die Einsparungen quantifizieren können: Ein Stenotypist würde vier Stunden benötigen, um ein dünnes Buch abzutippen. Eine OCR mit anschliessender manueller Korrekturschleife benötigt eine Stunde. Durch kollektives Arbeiten mit dem Online-System halbiert sich die erforderliche Zeit, die «lernende» Software verkürzt den Verarbeitungsprozess nochmals auf insgesamt eine Viertelstunde. Somit lassen sich in vier Stunden nicht 1 sondern 16 Bücher erfassen, rechnet Drory vor.

Werbung

KOMMENTARE

Keine Kommentare

KOMMENTAR SCHREIBEN

*
*
*
*

Alles Pflichfelder, E-Mail-Adresse wird nicht angezeigt.

Die Redaktion hält sich vor, unangebrachte, rassistische oder ehrverletzende Kommentare zu löschen.
Die Verfasser von Leserkommentaren gewähren der IDG Communications AG das unentgeltliche, zeitlich und räumlich unbegrenzte Recht, ihre Leserkommentare ganz oder teilweise auf dem Portal zu verwenden. Eingeschlossen ist zusätzlich das Recht, die Texte in andere Publikationsorgane, Medien oder Bücher zu übernehmen und zur Archivierung abzuspeichern.