OCR Texterkennung – Definition & Vorgehensweise

19.04.2021 Digitalisieren für Priva... Lesedauer: 7min

Wie gefällt Ihnen dieser Beitrag?

0 Bewertungen


scan-blog-digitalisieren-ocr-texterkennung-01

Die OCR Texterkennung ermöglicht es, gedruckte und handschriftliche Dokumente schnell und kostengünstig in digitale Dokumente umzuwandeln. Beispielsweise Geschäftsbriefe, Rechnungen, Lieferscheine, Broschüren oder Bücher. Die digitalisierten Dokumente können durchsucht, bearbeitet und platzsparend archiviert werden. Wie die OCR Texterkennung funktioniert, welche Vorteile sie bietet und welche Software empfehlenswert ist, erfahren Sie im folgenden Beitrag.

OCR Texterkennung „kurz erklärt“

Die OCR Texterkennung ist eine Technik, mit der ein Computer Buchstaben, Symbole und Zahlen auf Bildern oder gescannten Dokumenten erkennt und in digitalen maschinenlesbaren Text umwandelt. So wird zum Beispiel aus einem Foto von einem Brief ein bearbeitbarer Text. Das ist praktisch, um Dokumente zu durchsuchen, zu kopieren oder zu archivieren.

Definition: OCR-Texterkennung

OCR ist die Abkürzung von „Optical Character Recognition“ (Optische Zeichenerkennung). OCR wird allgemein auch als automatische Text- oder Zeichenerkennung bezeichnet. Mithilfe von OCR-Software können die Inhalte gedruckter oder handschriftlicher Dokumente nach dem Einscannen in maschinenlesbare Zeichen umgewandelt werden. Nach der Umwandlung können diese Dokumente wie andere an einem Computer erstellte Texte durchsucht und bearbeitet werden. So lassen sich etwa gescannte Briefe oder Rechnungen durchsuchen, kopieren oder digital weiterverarbeiten. Nicht immer ist es notwendig, das gesamte Dokument weiterzuverarbeiten.

Moderne OCR-Systeme nutzen häufig künstliche Intelligenz, um auch handschriftliche Texte oder komplexe Layouts zu erkennen. Die Qualität der automatischen Texterkennung hängt dabei stark von Faktoren wie Bildauflösung, Kontrast, Schriftart und Scanwinkel ab.

Die Ursprünge der OCR Texterkennung reichen bis in die Zeit der Telegrafie zurück. Kurz vor dem Ersten Weltkriegs erfand der in Moskau geborene Physiker und Chemiker Emanuel Goldberg eine Maschine, die Zeichen lesen und in Telegrafencodes umwandeln konnte. In den 1920er-Jahren entwickelt er ein Gerät, das mithilfe einer Fotozelle und einem Projektor Schriftzeichen erkennen konnte.

Seitdem wurde die OCR Texterkennung kontinuierlich weiterentwickelt. Unternehmen nutzen diese Technologie heute, um den Aufwand für die Konvertierung und Extraktion von Daten aus Papierdokumenten zu reduzieren. Frühe Versionen der OCR Texterkennung mussten noch mit Bildern einzelner Zeichen trainiert werden und waren darauf beschränkt, jeweils eine Schriftart zu erkennen.

In den 1970er-Jahren kommerzialisierte der Erfinder Ray Kurzweil die sogenannte „Omni-Font-OCR“, die erstmals Text in nahezu jeder Schriftart verarbeiten konnte. Ab den frühen 2000er-Jahren wurde die OCR Texterkennung dann als Cloud-basierter Dienst online verfügbar, der über Desktop- und mobile Anwendungen zugänglich ist. Dies war ein weiterer Meilenstein in der Digitalisierung.

Die Techniken bei der OCR Texterkennung

Bei der OCR Texterkennung werden zwei verschiedene Techniken für die Zeichenerkennung angewendet. Diese sind die:

  • Mustererkennung und die
  • Merkmalsextraktion.

OCR Texterkennung mithilfe der Mustererkennung

Bei der Mustererkennung versucht die Software ganze Zeichen zu erkennen und mit einer in der Software gespeicherten Zeichenmatrix abzugleichen. Eine andere Bezeichnung für diese Technik ist daher auch Matrixabgleich. Der Nachteil dieser Technik besteht darin, dass die erkannten Zeichen und die gespeicherten Zeichen dieselbe Schriftart und denselben Maßstab haben müssen.

Softwareprogramme für die automatische Texterkennung, welche die Mustererkennung nutzen, sind in der Regel darauf programmiert, die Zeichen häufig verwendeter Schriftarten wie Times New Roman, Courier, Arial oder Verdana zu erkennen. Für handschriftliche Dokumente eignet sich diese Technik nicht.

OCR Texterkennung mithilfe der Merkmalextraktion

Die Merkmalextraktion oder Merkmalerkennung ist eine ausgefeiltere Technik zum Erkennen einzelner Zeichen. Bei dieser Methode wird jedes Zeichen in einzelne Bestandteile wie beispielsweise Linien, Linienrichtungen, geschlossene Schleifen und Schnittpunkte von Linien aufgeteilt.

Erkennt die Software beispielsweise zwei einander zugeneigte Linien, die sich am oberen Ende berühren und befindet sich zwischen den beiden Linien noch eine horizontale Linie, dann handelt es sich aller Wahrscheinlichkeit nach um den Buchstaben A.

Diese Technik wird auch als Intelligent Character Recognition, abgekürzt ICR oder Feature Extraction bezeichnet. Bei dieser Technik kommen auch spezielle Algorithmen wie der Nearest-Neighbors-Algorithmus zur Anwendung.

Mithilfe dieses Algorithmus werden die extrahierten Bildmerkmale mit gespeicherten Merkmalen verglichen, sodass die beste Übereinstimmung ausgewählt werden kann. Beispielsweise, ob es sich bei einem Zeichen um ein „I“ oder eine „1“ handelt.

Vorgehensweise bei der OCR Texterkennung

Ausgangspunkt für die OCR Texterkennung ist, ein analoges Dokument digital nutzbar zu machen, indem es eingescannt wird. Die Texterkennungschritte sind:

  • Preprocessing
  • Texterkennung
  • Postprocessing

Im Folgenden wird die Vorgehensweise bei der OCR Texterkennung Schritt-für-Schritt erklärt.

Preprocessing

Beim Preprocessing werden verschiedene Techniken eingesetzt, um die Erkennungsrate zu verbessern. Diese werden in der folgenden Tabelle erläutert.

Technik Beschreibung
De-Skew Ausrichten des Dokumentes horizontal oder vertikal.
Despeckle Entfernen von Flecken und Glätten von Kanten.
Binarisierung Umwandeln des Bildes in ein schwarz-weißes Bild. Dadurch kann der Text vom Hintergrund getrennt und die Erkennungsrate erhöht werden.
Zeilenentfernung Entfernt Linien und Felder, die keine Textzeichen enthalten.
Layoutanalyse oder „Zoning" Identifizieren von Spalten, Absätze und Beschriftungen als eindeutige Blöcke. Dieser Vorgang ist insbesondere bei mehrspaltigen Layouts und bei Tabellen wichtig.
Linien- und Worterkennung Legt die Grundlinie für Wort- und Zeichenformen fest und trennt
Wörter bei Bedarf.
Zeichenisolation oder „Segmentierung“ Trennen von Zeichen, die durch Bildartefakte verbunden zu sein
scheinen und zusammenfügen von Zeichen, die durch Bildartefakte getrennt sind.
Seitenverhältnis und Skalierung normalisieren. Bei diesem Prozess werden die Schriftarten beispielsweise an einem einheitlichen Raster ausgerichtet, sodass die Software Leerräume zwischen Buchstaben und Wörtern unterscheiden kann.

Texterkennung

Nach dem Preprocessing erfolgt die eigentliche Texterkennung, die in der Regel auf einem der beiden Verfahren, also der Mustererkennung oder Merkmalsextraktion, basiert.

Im ersten Schritt interpretiert die Software die Schriftzeichen mittels der Mustererkennung. Hierfür gleicht sie jedes zuvor identifizierte Zeichen mit einer Datenbank ab. Dabei werden Merkmale wie Höhe, Breite oder allgemeine Struktur des Zeichens mit möglicherweise passenden Kandidaten aus der Bibliothek verglichen.

Auf dieser Grundlage erstellt das Programm eine Analyse beziehungsweise ein formatiertes Dokument und erkennt die entsprechenden Buchstaben, die Zahlen oder das Satzzeichen.

Postprocessing

Im Rahmen des Postprocessings werden mithilfe spezieller Algorithmen mögliche Fehler bei der Texterkennung analysiert und korrigiert. Zudem wird die Genauigkeit des Übersetzungsergebnisses durch den Einsatz von „Intelligent Character Recognition“ (ICR) verbessert.

Im letzten Schritt wird das Dokument in das gewünschte Ausgabeformat konvertiert. Aus dem ursprünglichen Pixelformat wird so ein editierbares Textdokument in einem Format wie Word, Excel oder auch PDF erstellt.

Vorteile

Die wesentlichen Vorteile der OCR Texterkennung sind:

  • Kostenreduzierung – mithilfe der OCR-Texterkennung können Daten kostengünstig extrahiert werden.
  • Fehlervermeidung – gegenüber der manuellen Eingabe von Daten ist die Fehlerquote bei der OCR-Texterkennung gering.
  • Platzersparnis – die elektronisch gespeicherten Daten benötigen wesentlich weniger Platz als Papierdokumente.
  • Hohe Datensicherheit – elektronisch gespeicherte Dokumente können besser gegen Datendiebstahl und unbefugte Einsicht geschützt werden als ein Dokument in Papierform.
  • 100 % durchsuchbare Dateien – mithilfe der OCR Texterkennung können gedruckte und handschriftliche Dokumente wie andere digitale Dokumente nach beliebigen Parameter durchsucht werden.
  • Disaster Recovery – die Datenspeicherung digitalisierter Dokumente auf sicheren Servern und verteilten Systemen ermöglicht nach Notfallsituationen eine unterbrechungsfreie Fortführung des Geschäftsbetriebes.
Scannen, Digitalisieren &
Archivieren mit ScanProfi!
Einfach und unkompliziert Dokumente, visuelle und auditive Medien digitalisieren lassen und Ihr Unternehmen papierlos machen, Dokumente digital abrufbar archivieren oder Erinnerungen für die Ewigkeit festhalten.

ICR- und KI Texterkennung

Die Intelligent Character Recognition (ICR) stellt eine wichtige Weiterentwicklung der klassischen OCR-Technologie dar. Diese intelligente Texterkennung kommt besonders in der Nachbearbeitungsphase moderner OCR-Software zum Einsatz und bietet eine tiefere Analyse der erkannten Dokumente.

Durch den Einsatz von ICR wird die moderne Texterkennung nicht nur auf die Identifizierung von Zeichen beschränkt, sondern auch der Kontext von Wörtern und Sätzen berücksichtigt. Dies ermöglicht es der Software, Fehler zu korrigieren, die durch die reine Zeichenanalyse entstehen könnten.

Beispiel: ICR Texterkennung

Ohne Kontextanalyse würde eine Software den Buchstaben „O“ möglicherweise als Ziffer „0“ erkennen, was aus dem Wort „Oper“ fälschlicherweise „0per“ machen würde. Ebenso könnte der Buchstabe „B“ als Zahl „8“ interpretiert werden, sodass aus „Berg“ „8erg“ wird. Die ICR-Technologie korrigiert solche Fehler automatisch, sodass der Text korrekt dargestellt wird.

Die Texterkennung mit Künstlichen Neuronalen Netzen (KNN) hat in den letzten Jahren ebenfalls enorme Fortschritte gemacht. KNN, die dem menschlichen Gehirn nachempfunden sind, bestehen aus einer Vielzahl miteinander verbundener Neuronen, die durch den Lernprozess ihre Verbindungen anpassen und so mit der Zeit immer genauer werden.

Diese Netze lernen durch die Analyse großer Datenmengen und verbessern ihre Fähigkeit, Schriftzeichen zu erkennen. Im Vergleich zu klassischen OCR-Systemen, die Zeichen einzeln erkennen, können KNN inzwischen ganze Textzeilen verarbeiten und verstehen, was zu einer erheblichen Fehlerreduktion führt.

Durch die kontinuierliche Weiterentwicklung dieser KI-Technologie sind KNN mittlerweile so präzise, dass sie nicht nur gedruckte Texte fehlerfrei erkennen, sondern auch handschriftliche Texte mit immer höherer Genauigkeit erfassen können. Dieser Fortschritt hat die präzise Texterkennung auf ein neues Niveau gehoben und ermöglicht eine weitgehend fehlerfreie Digitalisierung von Texten aus verschiedensten Quellen.

Software, Apps und Tools

In den 1980er-Jahren wurden für die OCR Texterkennung noch Großrechner benötigt. Heute sind selbst Smartphones und Tablets leistungsstark genug, um Dokumente zu scannen und zu digitalisieren.

Die wichtigsten Softwareprogramme und Tools für die OCR-Texterkennung am PC sind:

Name Betriebssystem Besonderheiten
OmniPage Ultimate Windows & MacOS Bearbeiten von Bildern (BMP, JPG, GIF, PNG und andere)
Readiris 17 Windows & MacOS PDF-Erstellung und Bearbeitung
Abbyy Fine Reader Windows & MacOS PDF erstellen und bearbeiten
Prizmo 2 MacOS Verwaltungssoftware für Dokumente mit OCR Texterkennung
OCR Text Detection Tool Windows erkennt Texte in Bildern und Webcam-Aufnahmen

Fürs Smartphone und Tablet können die folgenden Softwareprogramme für die OCR Texterkennung benutzt werden.

Name Betriebssystem Besonderheiten
scan me iPhone-App Dokumentenscanner mit Anbindung an Dropbox, Google Drive und Organize.me
Adobe Scan Android App speichert Dokumente mit automatischer Texterkennung
Microsoft Lens Android App Scanner für Dokumente, Poster oder Notizen
TextGrabber iPhone- / iPad-App Übersetzer-App mit OCR-Erkennung

Neben Programmen zum Downloaden gibt es auch Online-Tools für die OCR Texterkennung.

Name Besonderheiten
ABBYY Cloud OCR SDK extrahiert Textinformationen aus Scans, PDFs, Dokumentbildern, Smartphone-Fotos oder Screenshots
Google Vision API extrahiert Textinformationen aus Bildern und Dokumenten
Amazon Textract Machine-Learning-Service von AWS für gedruckte und handschriftliche Texte

Zusammenfassung

OCR-Texterkennung ist eine ausgereifte Technik für die Digitalisierung gedruckter und handschriftliche Dokumente. Immer mehr Unternehmen nutzen diese Technik, um Dokumente durchsuchbar zu machen, sicher und platzsparend zu archivieren.

OCR-Software kann auf PCs, Smartphones und Tablets eingesetzt werden. Für die Digitalisierung vieler Dokumente empfiehlt sich die Beauftragung eines spezialisierten Dienstleisters.

Häufig gestellte Fragen

Bei der OCR Texterkennung werden die einzelnen Buchstaben und Ziffern eines gescannten Dokuments von analysiert und die erkannten Muster mit gespeicherten Daten verglichen.

Empfehlenswerte OCR Software Programme für den PC sind ReadIris, Abbyy Fine Reader und OmniPage Ultimate.

Je nach Software, Schriftart, Qualität des Dokuments und Qualität des Scans beträgt die Erkennungsrate zwischen 50 und 100 %.

Intelligente OCR Software kann mithilfe künstlicher Intelligenz und neuronaler Netze lernen, Handschriften zu erkennen.