Crowd Computing: IBM korrigiert historische Texte
Bei Frakturschrift kommt Texterkennungs-Software ins Schleudern. Um historische Schriften digital zu erfassen, sind viele Korrekturen notwendig. Ein IBM-Programm erlaubt Berichtigungen durch die «Crowd».
Die «Aufschlüsse zur Magie» von Karl von Eckartshausen ist ein gescanntes Buch» Von , 27.08.2010 08:35.
Moderne Texterkennungs-Software wie Abbyy FineReader oder Nuance OmniPage erreicht im Test bei sauberen, maschinengeschriebenen Vorlagen Erkennungsraten von 95 Prozent und mehr. Bei Testscans von Texten in Frakturschrift sinkt die Rate auf 50 Prozent und weniger. Dann muss der Korrektor viel Arbeit und Zeit aufwenden, um einen lesbaren, durchsuchbaren und reproduzierbaren Text zu erhalten. Das gilt auch für verschmutzte Originale oder von Hand geschriebene Druckbuchstaben.
Im Rahmen des EU-Forschungsprojekts «Impact» (Improving Access to Text) entwickeln Bibliotheken, Forscher und Unternehmen Technologien zur Digitalisierung von historischen Texten. Das Ziel ist den Initiatoren zufolge ein durchsuchbares Online-Archiv, in dem auch digitale Kopien der Bücher und Dokumente bezogen werden können. Vergleichbare Projekte beschränken sich beim Archivieren der Texte auf die rein fotografische Abbildung. Die Suche nach Stichwörtern ist dann höchstens in den etwaigen Metadaten möglich.
IBMs Crowd Computing
Das Einlesen der historischen Druckwerke geschieht bei «Impact» künftig in zwei Phasen: in der ersten verarbeitet die OCR (Optical Character Recognition) hoch aufgelöste Scans der Originaltexte und markiert unsichere Zeichen elektronisch. Dann kommt ein kollaboratives Online-Korrektursystem zum Einsatz, das Experten von IBM Reseach in Haifa entwickelt haben. In das System können sich die Projektbeteiligten von Bibliotheken und Universitäten einklinken, um gemeinsam die Korrekturen zu beschleunigen. Überdies ist die Technologie «lernfähig», so dass zum Beispiel einmal manuell korrigierte Schriftzeichen hinterher automatisch verarbeitet werden.

Das Korrektursystem von IBM Reseach arbeitet im Browser






KOMMENTARE
KOMMENTAR SCHREIBEN