OCR im Wandel der Zeiten

30. März 2014

Bild von Scheck

OCR im Wandel der Zeiten: Vor 45 Jahren wurde im Auftrag der amerikanischen Regierung die erste maschinenlesbare Schrift entwickelt. Bis zum heutigen Stand der OCR-Technik hat sich viel verändert.

1968 war ein revolutionäres Jahr - nicht nur politisch, auch in der Geschichte des Computers hat sich in diesem Jahr einiges bewegt. Douglas C. Engelbart erfand die Computermaus, der erste Vorläufer unserer Personal Computer kam auf den Markt, und die elektronische Datenverarbeitung wurde langsam marktfähig.

Die Einsatzmöglichkeiten für OCR waren zunächst begrenzt. Aufgrund der aus heutiger Sicht lächerlich erscheinenden Rechenkapazität musste man damals, um verwertbare Ergebnisse zu erzielen, standardisierte, leicht einlesbare Schrifttypen mit klar zu unterscheidenden Schriftzeichen verwenden. Das bekannteste Beispiel für diese Schrift finden Sie auf dem Bild zu diesem Artikel: Die Zahlenkolonnen im Schecknummernfeld sind in eben jener ersten Maschinenschrift namens OCR-A gehalten. Wichtiger Bestandteil von OCR-Schriften sind die zusätzlichen Steuerzeichen, die bezeichnenderweise „hook", „fork" und „chair" genannt werden. Sie liefern dem Scanner wichtige Hilfen, um beispielsweise das Ende einer Informationseinheit zu erkennen.

45 Jahre und einen technischen Quantensprung später kann OCR nicht nur einen Großteil aller Schrifttypen auslesen, sondern dank integrierter Spracherkennung - in der Regel mit Wörterbüchern - auch prüfen, ob der ausgelesene Text einen sinnvollen Zusammenhang ergibt oder nicht. Im Zweifelsfall entscheidet sich das Programm nicht für „2weifels§all", sondern korrigiert sich selbst.

Voraussetzung für ein gutes Ergebnis ist allerdings auch heute noch eine gute Auflösung der durch den Scanner erstellten digitalen Vorlage. Scanner sollten daher die Dokumente mit mindestens 200 DPI auslesen, da kleinere Auflösungen zu wenige Bildpunkte in der Vorlage haben und beim OCR-Prozess zu viele Fehler liefern.

Schwer tut sich OCR generell auch heute noch mit stark schattierten Scans oder verblassten Thermopapierbelegen. Das menschliche Auge ist in der Lage, unleserliche Stellen zu interpretieren und einen Gesamtzusammenhang herzustellen. Software stößt hier (noch) an ihre Grenzen. In der Praxis heißt das: Wenn Ihnen das Ausgangsdokument unleserlich vorkommt, empfehlen wir, probehalber eine Konvertierung zur Textdatei durchzuführen und den ausgelesenen Text vor der endgültigen Archivierung auf Verständlichkeit zu kontrollieren. Es ist aufschlussreich, dies mit unterschiedlichen Dokumenten und Schrifttypen auszuprobieren. Wir laden Sie gern ein, dazu unser webPDF-Portal zu nutzen. Dort stehen Ihnen unverbindlich alle OCR-Funktionen von webPDF zur Verfügung.

Bis vor ein paar Jahren wurden erkannte Texte nur ohne Layout-Angaben ausgegeben. Texte wurden zwar korrekt erkannt, jedoch ohne Angaben über ihre Position (Layout) auf einer Seite ausgegeben. Dies stellt heutzutage kein Problem mehr dar, dank des erweiterten Standards hOCR können Informationen über die Seitengliederung und das Layout auf der Basis von XML-Tags abgespeichert werden - auch ohne „hooks" und „chairs". Seit Version 5.0 unterstützt webPDF dieses Ausgabeformat. Sie können es entweder manuell auswählen oder als Standard konfigurieren, indem Sie den voreingestellten Parameter verändern.

Maschinenschriften, wie z. B. OCR-A oder OCR-B, sind trotzdem alles andere als antiquiert. Man sieht sie immer häufiger als Stilelement im modernen Design. Gerade in Zeiten von „Retro-Design" erscheinen diese Schriften immer wieder. Und warum soll es heute falsch sein, Schriften einzusetzen, die leichter erkennbar sind als andere Schriften, auch wenn die Technik große Fortschritte gemacht hat? Es geht schließlich bei OCR auch darum, Texte mit möglichst wenigen Fehlern zu erkennen.