Wie funktioniert ocr erkennung
Kann mir das Jemand kurz und knackig erklären? Würde mich gerne mal mit Texterkennung beschäftigen, und daher gerne wissen, wie gängige OCR-Programme den Text analysieren.
1 Antworten zur Frage
Videos zum Thema
YouTube Videos
Wie funktioniert eine OCR-Erkennung?
Dazu muss man etwas weiter ausholen:
OCR oder auch Optical Character Recognition, ist derjenige Teilbereich elektronischer Texterkennung, in dem auf einem gescannten Schriftgut über ein Mustervergleichsverfahren Einzelzeichen erkannt werden. Voraussetzung hierfür ist, dass über Bildanalyseverfahren das Schriftgut bereits derart 'zerlegt' wurde, dass dem OCR-Programmteil bereits nur diejenigen Einzelteile zur Erkennung vorgelegt werden, die einen einzelnen Buchstaben darstellen könnten. Werden der OCR z.B. optisch zusammenklebende Buchstaben geliefert, schlägt die Erkennung fehl.
Die OCR-Erkennung liefert keine absoluten Ergebnisse sondern ermittelt Wahrscheinlichkeiten für bestimmte Buchstaben. Diese Wahrscheinlichkeiten können mit weiterführenden Techniken der Texterkennung wie die ICR bestärkt oder in Frage gestellt werden.
Intelligent Character Recognition, überprüft die Plausibilität von OCR-Ergebnissen mit Hilfe vorgegebener Regeln, die auf allgemeinen linguistischen Grundlagen oder hinterlegten Wörterbüchern basieren können. ICR berücksichtigt den Kontext, in dem sich ein Buchstabe befindet.
Ausgangspunkt ist eine Bilddatei , die von der Vorlage per Scanner, Digitalfotografie oder Videokamera erzeugt wird. Die Texterkennung selbst erfolgt dreistufig:
1. Seiten- und Layouterkennung:
Die Bilddatei wird in relevante Bereiche und irrelevante Bereiche aufgeteilt.
2. Mustererkennung:
- Fehlerkorrektur Pixelebene
Die Rohpixel können durch ihre Nachbarschaftsbeziehungen zu angrenzenden Pixel korrigiert werden. Einzelne Pixel werden gelöscht. Fehlende Pixel können ergänzt werden. Dadurch erhöht sich die Trefferquote bei einem reinen Mustervergleich. Dies ist stark abhängig vom Kontrast der Vorlage.
- Mustervergleich Mapping
Die Pixelmuster der Textbereiche werden mit Mustern in einer Datenbank verglichen und Rohdigitalisate erzeugt.
- Fehlerkorrektur Zeichenebene Intelligent Character Recognition))
Fließhandschrift, bei der die Einzelzeichen nicht voneinander getrennt erkannt werden können, werden anhand globaler Charakteristiken mit Wörterbüchern verglichen. Die Treffergenauigkeit verringert sich mit der zunehmenden Größe des eingebundenen Wörterbuches, da die Verwechslungsmöglichkeiten zunehmen. Einsatzbereiche sind definierte Feldbereiche mit eingeschränkten Angabenmöglichkeiten, z.B. handgeschriebene Adressen auf Briefumschlägen.
- Manuelle Fehlerkorrektur
viele Programme bieten darüber hinaus einen besonderen Modus zur manuellen Fehlerkorrektur durch den Anwender für diejenigen Textbereiche, die 'unsicher' erkannt wurden.
3. Codierung in das Ausgabeformat
- je nach Aufgabenstellung erfolgt die Ausgabe in eine Datenbank, oder als Textdatei in einem definierten Format wie ASCII oder XML, gegebenenfalls auch mit Layout.
Die Qualität der Texterkennung bestimmen mehrere Faktoren, u.a.:
Qualität der Layouterkennung,
Umfang und Qualität der Muster-Datenbank,
Umfang und Qualität der Wörterbücher,
Qualität der Algorithmen zur Fehlerkorrektur,
Farbigkeit, Kontrast, Layout und Schriftart des Originaldokumentes,
Auflösung und Qualität der Bilddatei.
Ist zwar nicht kurz, aber knackig
hier kannste lesen.
http://www.inpuncto-gmbh.com/Glossar/ocr_erkennung.asp