03.11.2008, 09:31 Uhr

Google will auch im "Deep Web" fischen

Google will eingescannte PDF-Dateien im Web durchsuchbar machen. Damit will der Suchmaschinenriese einen Teil des "Deep Web" bergen.

Mit einer regelrechten OCR-Offensive will Google zahlreiche eingescannte PDF-Dokumente aus den Tiefen des Web ans Tageslicht befördern.

Mit Deep Web werden jene Teile des Internet bezeichnet, die tief vergraben in Datenbanken schlummern oder die anderweitig nicht mit Suchmaschinen durchstöbert werden können. Zu diesem verborgenen Web gehören auch eingescannte Dokumente, die als PDF-Dateien abgelegt werden. Denn bei diesen Files handelt es sich im Grunde genommen um Bilder von gedruckten Seiten, bei denen der Text nicht maschninell weiterverarbeitet werden kann.

Google plant nun eine regelrechte Texterkennungs-Offensive, bei der die abermillionen eingescannten PDF-Dokumente mit Hilfe von OCR-Software (Optical Character Regognition) analysiert werden. Dadurch lassen sie sich auch nach Begriffen durchsuchen und erscheinen schlussendlich in der Ergebnisliste einer Google-Suche. Durch die Massnahme werden ganze Regierungsarchive und viele wissenschaftliche Arbeiten aus den Tiefen des Webs ans Tageslicht befördert.

Autor(in) Jens Stark

Google will auch im "Deep Web" fischen

Aktuelle Jobs