Texterkennung (Optical Character Recognition)

Was ist Texterkennung?

Die optische Texterkennung (im Englischen Optical Character Recognition, kurz OCR) wandelt analogen Text in einen editierbaren, digitalen Text um. So wird zum Beispiel ein ausgedrucktes Formular eingescannt und von der OCR-Software in ein Textdokument am Computer umgewandelt, welches danach durchsucht, bearbeitet und gespeichert werden kann.

Moderne OCR-Texterkennung ist in der Lage, über 99 % der Textinformationen richtig zu erkennen. Wörter, die nicht erkannt werden, werden vom Programm gekennzeichnet und durch den Nutzer korrigiert.

Um die Ergebnisse weiter zu verbessern, wird OCR-Texterkennung oft mit Methoden der Kontextanalyse (im Englischen Intelligent Character Recognition, kurz ICR) ergänzt. Wenn die Texterkennungssoftware zum Beispiel „2immer“ erkannt hat, wird die „2“ zu einem „Z“ korrigiert, wodurch das im Kontext sinnhafte Wort „Zimmer“ ausgegeben wird.

Daneben gibt es auch Intelligent Word Recognition (IWR), welche die Probleme bei der Erkennung von Fließhandschriften lösen soll.

Einige Beispiele für kostenlose und kostenpflichtige Optical-Character-Recognition-Software (in alphabetischer Reihenfolge):

ABBYY FineReader PDF
ABBYY FlexiCapture
Adobe Acrobat Pro DC
Amazon Textract
Docparser
FineReader
Google Document AI
IBM Datacap
Klippa
Microsoft OneNote
Nanonets
OmniPage Ultimate
PDF Reader
Readiris
Rossum
SimpleOCR
Softworks OCR
Soda PDF
Veryfi

Eine OCR-Texterkennung mit Python oder C# selbst schreiben

Es ist möglich, mit den Programmiersprachen Python oder C# selbst Texterkennung in Skripte einzubauen. Dafür wird die kostenlose OCR-Bibliothek Tesseract benötigt, welche für Linux und Windows funktioniert.

Diese Herangehensweise bietet eine individuell anpassbare Lösung zur Texterkennung, sowohl für Scans als auch für Fotos.

Wie funktioniert eine Optical-Character-Recognition-Software?

Die Grundlage bildet die Rastergrafik (Bildkopie des Texts), welche mithilfe eines Scanners oder einer Kamera vom physisch vorhanden Text, zum Beispiel einer Buchseite, erstellt wird. Die Texterkennung eines Fotos ist hierbei meist schwieriger, als bei einem Scan, bei dem die Bildkopie sehr ähnlich gute Voraussetzungen liefert. Bei einem Foto können Belichtung und Aufnahmewinkel des Dokuments Probleme bereiten, welche aber wiederum durch den Einsatz von KI berichtigt werden können.

Danach arbeitet die OCR-Software in 3 Schritten:

1. Erkennung der Seiten- und Gliederungsstruktur

Die eingescannte Grafik wird auf dunkle und helle Bereiche analysiert. Dabei werden im Normalfall die dunklen Bereiche als zu erkennende Zeichen und die hellen Bereiche als Hintergrund identifiziert.

2. Muster- oder Merkmalserkennung

Darauf folgt die Weiterverarbeitung der dunklen Bereiche, um alphabetische Buchstaben oder numerische Ziffern zu finden. Die Vorgehensweise der verschiedenen OCR-Lösungen unterscheidet sich dabei, ob jeweils nur ein Zeichen, ein Wort oder ein Textblock auf einmal erkannt wird. Die Zeichen werden mithilfe von Muster- oder Merkmalserkennung identifiziert:

Mustererkennung: Das OCR-Programm vergleicht die zu prüfenden Zeichen mit seiner Datenbank von Textbeispielen in verschiedenen Schriftarten und Formaten und erkennt dabei gleiche Muster.

Merkmalserkennung: Das OCR-Programm wendet Regeln bezüglich der Merkmale eines bestimmten Buchstabens oder einer Zahl an. Merkmale können beispielsweise die Anzahl der abgewinkelten Linien, gekreuzte Linien oder Kurven in einem Zeichen sein.

Zum Beispiel besteht die Information für den Buchstaben “F” aus einer langen Senkrechten und 2 kurzen, rechtwinkligen Linien.

3. Codierung in Ausgabeformat und Fehlerkontrolle

Je nach Anwendungsgebiet und genutzter Software wird das Dokument in unterschiedlichen Formaten gespeichert. Beispielsweise wird es als Word- oder PDF-Datei ausgegeben, oder direkt in einer Datenbank gespeichert.

Zudem erfolgt im letzten Schritt auch die Fehlerkontrolle durch den Anwender, um nicht erkannte Wörter oder Zeichen manuell zu korrigieren.

Wie unterstützt KI die Texterkennung?

Zum einen unterstützt Künstliche Intelligenz (KI) bei der Texterkennung schon bei der Optimierung der Rastergrafik, vor allem bei Fotos. Ist das einzulesende Dokument geknickt oder zerknittert, so ist der Text teilweise zu schräg oder verzerrt, wodurch die OCR-Software Probleme bei der Bearbeitung bekommt. Bei Fotos können auch eine schlechte Belichtung und ein unpassender Aufnahmewinkel zu schlechten Bedingungen für die OCR-Software führen.

Mithilfe von KI kann das Dokument in seiner Struktur „geglättet“, die Beleuchtung optimiert und der Winkel korrigiert werden und bietet damit wieder gute Voraussetzungen für die Texterkennung.

Zum anderen verbessert KI die Resultate der Texterkennung an sich. Mit jedem Text und jeden korrigierten Fehler lernt die Künstliche Intelligenz dazu. Damit minimieren sich immer weiter die Fehler bei der Texterkennung und die OCR-Software liefert stetig bessere Ergebnisse.