Optische Zeichenerkennung ~ Definition & Vorgehensweise

Inhaltsverzeichnis

1 Optische Zeichenerkennung „kurz erklärt“
2 Definition: Optische Zeichenerkennung
3 Techniken
4 Vorgehensweise
5 Vorteile
6 ICR- und KI Texterkennung
7 Software, Apps und Tools
8 Zusammenfassung
9 Häufig gestellte Fragen

scan-blog-digitalisieren-ocr-texterkennung-01

Die optische Zeichenerkennung ermöglicht es, gedruckte und handschriftliche Dokumente schnell und kostengünstig in digitale Dokumente umzuwandeln, beispielsweise Geschäftsbriefe, Rechnungen, Lieferscheine, Broschüren oder Bücher. Die digitalisierten Dokumente können durchsucht, bearbeitet und platzsparend archiviert werden. Wie die optische Zeichenerkennung funktioniert, welche Vorteile sie bietet und welche Software empfehlenswert ist, erfahren Sie im folgenden Beitrag.

Optische Zeichenerkennung „kurz erklärt“

Die optische Zeichenerkennung (OCR) ist eine Technik, mit der ein Computer Buchstaben, Symbole und Zahlen auf Bildern oder gescannten Dokumenten erkennt und in digitalen, maschinenlesbaren Text umwandelt. So wird zum Beispiel aus einem Foto von einem Brief ein bearbeitbarer Text. Das ist praktisch, um Dokumente zu durchsuchen, zu kopieren oder zu archivieren.

Definition: Optische Zeichenerkennung

OCR ist die Abkürzung von „Optical Character Recognition“ (dt. optische Zeichenerkennung). Optische Zeichenerkennung wird allgemein auch als automatische Text- oder Zeichenerkennung bezeichnet. Mithilfe von Texterkennungs-Software können die Inhalte gedruckter oder handschriftlicher Dokumente nach dem Einscannen in maschinenlesbare Zeichen umgewandelt werden. Nach der Umwandlung können diese Dokumente wie andere an einem Computer erstellte Texte durchsucht und bearbeitet werden. So lassen sich etwa gescannte Briefe oder Rechnungen durchsuchen, kopieren oder digital weiterverarbeiten. Nicht immer ist es notwendig, das gesamte Dokument weiterzuverarbeiten.

Moderne OCR-Systeme nutzen häufig künstliche Intelligenz (KI), um auch handschriftliche Texte oder komplexe Layouts zu erkennen. Die Qualität der automatischen Texterkennung hängt dabei stark von Faktoren wie Bildauflösung, Kontrast, Schriftart und Scanwinkel ab.

Ursprung

Die Ursprünge der optischen Zeichenerkennung reichen bis in die Zeit der Telegrafie zurück. Kurz vor dem Ersten Weltkrieg erfand der in Moskau geborene Physiker und Chemiker Emanuel Goldberg eine Maschine, die Zeichen lesen und in Telegrafencodes umwandeln konnte. In den 1920er-Jahren entwickelte er ein Gerät, das mithilfe einer Fotozelle und eines Projektors Schriftzeichen erkennen konnte.

Seitdem wurde die optische Zeichenerkennung kontinuierlich weiterentwickelt. Unternehmen nutzen diese Technologie heute, um den Aufwand für die Konvertierung und Extraktion von Daten aus Papierdokumenten zu reduzieren. Frühere Versionen der OCR Texterkennung mussten noch mit Bildern einzelner Zeichen trainiert werden und waren darauf beschränkt, jeweils eine Schriftart zu erkennen.

In den 1970er-Jahren kommerzialisierte der Erfinder Ray Kurzweil die sogenannte „Omni-Font-OCR“, die erstmals Text in nahezu jeder Schriftart verarbeiten konnte. Ab den frühen 2000er-Jahren wurde die optische Zeichenerkennung dann als Cloud-basierter Dienst online verfügbar, der über Desktop- und mobile Anwendungen zugänglich ist. Dies war ein weiterer Meilenstein in der Digitalisierung.

Techniken

Bei der optischen Zeichenerkennung werden zwei verschiedene Techniken für die Zeichenerkennung angewendet. Diese sind die:

Mustererkennung und die
Merkmalsextraktion.

OCR Texterkennung mithilfe der Mustererkennung

Bei der Mustererkennung versucht die Software, ganze Zeichen zu erkennen und mit einer in der Software gespeicherten Zeichenmatrix abzugleichen. Eine andere Bezeichnung für diese Technik ist daher auch Matrixabgleich. Der Nachteil dieser Technik besteht darin, dass die erkannten und die gespeicherten Zeichen dieselbe Schriftart und denselben Maßstab haben müssen.

Softwareprogramme für die automatische Texterkennung, welche die Mustererkennung nutzen, sind in der Regel darauf programmiert, die Zeichen häufig verwendeter Schriftarten wie Times New Roman, Courier, Arial oder Verdana zu erkennen. Für handschriftliche Dokumente eignet sich diese Technik nicht.

OCR Texterkennung mithilfe der Merkmalextraktion

Die Merkmalextraktion oder Merkmalerkennung ist eine ausgefeiltere Technik zum Erkennen einzelner Zeichen. Bei dieser Methode wird jedes Zeichen in einzelne Bestandteile wie Linien, Linienrichtungen, geschlossene Schleifen und Schnittpunkte von Linien aufgeteilt.

Erkennt die Software beispielsweise zwei einander zugeneigte Linien, die sich am oberen Ende berühren, und befindet sich zwischen den beiden Linien noch eine horizontale Linie, dann handelt es sich aller Wahrscheinlichkeit nach um den Buchstaben A.

Diese Technik wird auch als Intelligent Character Recognition, abgekürzt ICR, oder Feature Extraction bezeichnet. Bei dieser Technik kommen auch spezielle Algorithmen wie der Nearest-Neighbors-Algorithmus zur Anwendung.

Mithilfe dieses Algorithmus werden die extrahierten Bildmerkmale mit gespeicherten Merkmalen verglichen, sodass die beste Übereinstimmung ausgewählt werden kann. Beispielsweise, ob es sich bei einem Zeichen um ein „I“ oder eine „1“ handelt.

Vorgehensweise

Ausgangspunkt für die optische Zeichenerkennung ist, ein analoges Dokument digital nutzbar zu machen, indem es eingescannt wird. Die Texterkennungsschritte sind:

Preprocessing
Texterkennung
Postprocessing

Im Folgenden wird die Vorgehensweise bei der OCR Texterkennung Schritt für Schritt erklärt.

OCR Texterkennung - Vorgehensweise bei der OCR Texterkennung

Preprocessing

Beim Preprocessing werden verschiedene Techniken eingesetzt, um die Erkennungsrate zu verbessern. Diese werden in der folgenden Tabelle erläutert.

Technik	Beschreibung
De-Skew	Ausrichten des Dokumentes horizontal oder vertikal.
Despeckle	Entfernen von Flecken und Glätten von Kanten.
Binarisierung	Umwandeln des Bildes in ein schwarz-weißes Bild. Dadurch kann der Text vom Hintergrund getrennt und die Erkennungsrate erhöht werden.
Zeilenentfernung	Entfernt Linien und Felder, die keine Textzeichen enthalten.
Layoutanalyse oder „Zoning"	Identifizieren von Spalten, Absätze und Beschriftungen als eindeutige Blöcke. Dieser Vorgang ist insbesondere bei mehrspaltigen Layouts und bei Tabellen wichtig.
Linien- und Worterkennung	Legt die Grundlinie für Wort- und Zeichenformen fest und trennt Wörter bei Bedarf.
Zeichenisolation oder „Segmentierung“	Trennen von Zeichen, die durch Bildartefakte verbunden zu sein scheinen und zusammenfügen von Zeichen, die durch Bildartefakte getrennt sind.
Seitenverhältnis und Skalierung normalisieren.	Bei diesem Prozess werden die Schriftarten beispielsweise an einem einheitlichen Raster ausgerichtet, sodass die Software Leerräume zwischen Buchstaben und Wörtern unterscheiden kann.

Texterkennung

Nach dem Preprocessing erfolgt die eigentliche Texterkennung, die in der Regel auf einem der beiden Verfahren, also der Mustererkennung oder Merkmalsextraktion, basiert.

Im ersten Schritt interpretiert die Software die Schriftzeichen mittels der Mustererkennung. Hierfür gleicht sie jedes zuvor identifizierte Zeichen mit einer Datenbank ab. Dabei werden Merkmale wie Höhe, Breite oder allgemeine Struktur des Zeichens mit möglicherweise passenden Kandidaten aus der Bibliothek verglichen.

Auf dieser Grundlage erstellt das Programm eine Analyse bzw. ein formatiertes Dokument und erkennt die entsprechenden Buchstaben, die Zahlen oder Satzzeichen.

Postprocessing

Im Rahmen des Postprocessings werden mithilfe spezieller Algorithmen mögliche Fehler bei der Texterkennung analysiert und korrigiert. Zudem wird die Genauigkeit des Übersetzungsergebnisses durch den Einsatz von „Intelligent Character Recognition“ (ICR) verbessert.

Im letzten Schritt wird das Dokument in das gewünschte Ausgabeformat konvertiert. Aus dem ursprünglichen Pixelformat wird so ein editierbares Textdokument in einem Format wie Word, Excel oder auch PDF erstellt.

Vorteile

Die wesentlichen Vorteile der optischen Zeichenerkennung sind:

Kostenreduzierung: mithilfe der optischen Texterkennung können Daten kostengünstig extrahiert werden.
Fehlervermeidung: gegenüber der manuellen Eingabe von Daten ist die Fehlerquote bei der OCR-Texterkennung gering.
Platzersparnis: die elektronisch gespeicherten Daten benötigen wesentlich weniger Platz als Papierdokumente.
Hohe Datensicherheit: elektronisch gespeicherte Dokumente können besser gegen Datendiebstahl und unbefugte Einsicht geschützt werden als ein Dokument in Papierform.
100 % durchsuchbare Dateien: mithilfe der optischen Zeichenerkennung können gedruckte und handschriftliche Dokumente wie andere digitale Dokumente nach beliebigen Parameter durchsucht werden.
Disaster Recovery: die Datenspeicherung digitalisierter Dokumente auf sicheren Servern und verteilten Systemen ermöglicht nach Notfallsituationen eine unterbrechungsfreie Fortführung des Geschäftsbetriebes.

Scannen, Digitalisieren &
Archivieren mit ScanProfi!

Einfach und unkompliziert Dokumente, visuelle und auditive Medien digitalisieren lassen und Ihr Unternehmen papierlos machen, Dokumente digital abrufbar archivieren oder Erinnerungen für die Ewigkeit festhalten.

ICR- und KI Texterkennung

Die Intelligent Character Recognition (ICR) stellt eine wichtige Weiterentwicklung der klassischen optischen Zeichenerkennung dar. Diese intelligente Texterkennung kommt besonders in der Nachbearbeitungsphase moderner OCR-Software zum Einsatz und bietet eine tiefere Analyse der erkannten Dokumente.

Durch den Einsatz von ICR wird die moderne Texterkennung nicht nur auf die Identifizierung von Zeichen beschränkt, sondern auch der Kontext von Wörtern und Sätzen berücksichtigt. Dies ermöglicht es der Software, Fehler zu korrigieren, die durch die reine Zeichenanalyse entstehen könnten.

Beispiel: ICR Texterkennung

Ohne Kontextanalyse würde eine Software den Buchstaben „O“ möglicherweise als Ziffer „0“ erkennen, was aus dem Wort „Oper“ fälschlicherweise „0per“ machen würde. Ebenso könnte der Buchstabe „B“ als Zahl „8“ interpretiert werden, sodass aus „Berg“ „8erg“ wird. Die ICR-Technologie korrigiert solche Fehler automatisch, sodass der Text korrekt dargestellt wird.

Die Texterkennung mit künstlichen neuronalen Netzen (KNN) hat in den vergangenen Jahren ebenfalls enorme Fortschritte gemacht. KNN, die dem menschlichen Gehirn nachempfunden sind, bestehen aus einer Vielzahl miteinander verbundener Neuronen, die durch den Lernprozess ihre Verbindungen anpassen und so mit der Zeit immer genauer werden.

Diese Netze lernen durch die Analyse großer Datenmengen und verbessern ihre Fähigkeit, Schriftzeichen zu erkennen. Im Vergleich zu klassischen Texterkennungs-Systemen, die Zeichen einzeln erkennen, können KNN inzwischen ganze Textzeilen verarbeiten und verstehen, was zu einer erheblichen Fehlerreduktion führt.

Durch die kontinuierliche Weiterentwicklung dieser KI-Technologie sind KNN mittlerweile so präzise, dass sie nicht nur gedruckte Texte fehlerfrei erkennen, sondern auch handschriftliche Texte mit immer höherer Genauigkeit erfassen können. Dieser Fortschritt hat die präzise Texterkennung auf ein neues Niveau gehoben und ermöglicht eine weitgehend fehlerfreie Digitalisierung von Texten aus verschiedensten Quellen.

Software, Apps und Tools

In den 1980er-Jahren wurden für die optische Zeichenerkennung noch Großrechner benötigt. Heute sind selbst Smartphones und Tablets leistungsstark genug, um Dokumente zu scannen und zu digitalisieren.

OCR-Software für PC

Die wichtigsten Softwareprogramme und Tools für die optische Zeichenerkennung am PC sind:

Name	Betriebssystem	Besonderheiten
OmniPage Ultimate	Windows & MacOS	Bearbeiten von Bildern (BMP, JPG, GIF, PNG und andere)
Readiris 17	Windows & MacOS	PDF-Erstellung und Bearbeitung
Abbyy Fine Reader	Windows & MacOS	PDF erstellen und bearbeiten
Prizmo 2	MacOS	Verwaltungssoftware für Dokumente mit OCR Texterkennung
OCR Text Detection Tool	Windows	erkennt Texte in Bildern und Webcam-Aufnahmen

OCR-Software für Smartphone und Tablet

Fürs Smartphone und Tablet können die folgenden Softwareprogramme für die optische Zeichenerkennung benutzt werden.

Name	Betriebssystem	Besonderheiten
scan me	iPhone-App	Dokumentenscanner mit Anbindung an Dropbox, Google Drive und Organize.me
Adobe Scan	Android App	speichert Dokumente mit automatischer Texterkennung
Microsoft Lens	Android App	Scanner für Dokumente, Poster oder Notizen
TextGrabber	iPhone- / iPad-App	Übersetzer-App mit OCR-Erkennung

OCR-Texterkennung Online-Tools

Neben Programmen zum Downloaden gibt es auch Online-Tools für die optische Zeichenerkennung.

Name	Besonderheiten
ABBYY Cloud OCR SDK	extrahiert Textinformationen aus Scans, PDFs, Dokumentbildern, Smartphone-Fotos oder Screenshots
Google Vision API	extrahiert Textinformationen aus Bildern und Dokumenten
Amazon Textract	Machine-Learning-Service von AWS für gedruckte und handschriftliche Texte

Zusammenfassung

optische Zeichenerkennung ist eine ausgereifte Technik für die Digitalisierung gedruckter und handschriftliche Dokumente. Immer mehr Unternehmen nutzen diese Technik, um Dokumente durchsuchbar zu machen, sicher und platzsparend zu archivieren.

OCR-Software kann auf PCs, Smartphones und Tablets eingesetzt werden. Für die Digitalisierung vieler Dokumente empfiehlt sich die Beauftragung eines spezialisierten Dienstleisters.

1) Aktionspreis gültig vom 01.03.2026 bis 31.03.2026 für VHS-Kassetten

Kategorien

Scannen, Digitalisieren & Archivieren

Optische Zeichenerkennung – Definition & Vorgehensweise