Funktionsweise von Image-to-Text (auch bekannt als Optical Character Recognition)

Funktionsweise von Image-to-Text (auch bekannt als Optical Character Recognition) / Technologie erklärt

Das Herausziehen von Text aus Bildern war dank der OCR-Technologie (Optical Character Recognition) noch nie so einfach wie heute.

Mit OCR können wir alle möglichen nützlichen Dinge erledigen, z. B. die Suche nach Bildern mit Hilfe von Textabfragen, das Reproduzieren von Dokumenten, ohne sie manuell einzugeben, und sogar das Konvertieren von handgeschriebenem Text in digitalen Text Bild mit Handschrift in Text mit OCR Um ein Bild von handgeschriebenem Text in digitalen Text zu konvertieren, den Sie bearbeiten und durchsuchen können, benötigen Sie ein OCR-Werkzeug (Optical Character Recognition, optische Zeichenerkennung). Versuchen Sie eines dieser OCR-Tools, um die Handschrift zu digitalisieren. Weiterlesen .

Aber was ist optische Zeichenerkennung? Wie funktioniert das eigentlich? Es mag Ihnen als schwarze Magie erscheinen, aber am Ende dieses Artikels haben Sie ein solides Verständnis dafür, wie Computer Buchstaben und Wörter erkennen können.

Wie funktioniert die optische Zeichenerkennung?

Um zu verstehen, wie Text aus einem Bild extrahiert wird, müssen wir zunächst verstehen, was Bilder sind und wie sie auf Computern gespeichert sind.

EIN Pixel ist ein einzelner Punkt einer bestimmten Farbe. Ein Bild ist im Wesentlichen eine Ansammlung von Pixeln. Je mehr Pixel in einem Bild vorhanden sind, desto höher ist die Auflösung. Ein Computer weiß nicht, dass ein Bild eines Wegweisers wirklich ein Wegweiser ist - er weiß nur, dass das erste Pixel diese Farbe ist, das nächste Pixel diese Farbe ist, und zeigt alle Pixel an, die Sie sehen können.

Dies bedeutet, dass sich Text und Nichttext nicht von einem Computer unterscheiden. Deshalb ist die Erkennung optischer Zeichen so schwierig. In diesem Sinne funktioniert es so.

Schritt 1: Vorverarbeitung des Bildes

Bevor Text gezogen werden kann, muss das Bild auf bestimmte Weise massiert werden, um die Extraktion einfacher und erfolgreicher zu machen. Dies wird als Vorverarbeitung bezeichnet, und verschiedene Softwarelösungen verwenden unterschiedliche Kombinationen von Techniken.

Die üblicheren Vorverarbeitungstechniken umfassen:

Binarisierung
Jedes einzelne Pixel im Bild wird entweder in Schwarz oder Weiß konvertiert. Das Ziel ist es, klar zu machen, welche Pixel zum Text und welche zum Hintergrund gehören, was den eigentlichen OCR-Prozess beschleunigt.

Deskew
Da Dokumente selten mit perfekter Ausrichtung gescannt werden, können Zeichen schräg oder sogar auf dem Kopf stehen. Das Ziel hier ist es, horizontale Textzeilen zu identifizieren und das Bild so zu drehen, dass diese Zeilen tatsächlich horizontal sind.

Despeckle
Unabhängig davon, ob das Bild binarisiert wurde oder nicht, kann Rauschen auftreten, das die Identifizierung von Zeichen beeinträchtigen kann. Despeckling entfernt dieses Rauschen und versucht das Bild zu glätten.

Leitungsentfernung
Identifiziert alle Zeilen und Markierungen, bei denen es sich wahrscheinlich nicht um Zeichen handelt, und entfernt diese, sodass der eigentliche OCR-Prozess nicht verwirrt wird. Dies ist besonders beim Scannen von Dokumenten mit Tabellen und Boxen wichtig.

Zoneneinteilung
Unterteilt das Bild in verschiedene Textabschnitte, z. B. das Identifizieren von Spalten in mehrspaltigen Dokumenten.

Bildnachweis: WayneRay / Wikimedia

Schritt 2: Bild bearbeiten

Zunächst einmal versucht der OCR-Prozess, die Grundlinie für jede Textzeile im Bild festzulegen (oder, wenn sie in der Vorverarbeitung in Zonen eingeteilt wurde, arbeitet sie durch jede Zone nacheinander). Jede identifizierte Zeichenzeile wird nacheinander behandelt.

Für jede Zeichenzeile ermittelt die OCR-Software den Abstand zwischen den Zeichen, indem sie nach vertikalen Linien von Nicht-Text-Pixeln sucht (was bei korrekter Binarisierung offensichtlich sein sollte). Jeder Pixelblock zwischen diesen Nichttextzeilen wird als a gekennzeichnet “Zeichen” das repräsentiert einen Charakter. Daher wird dieser Schritt aufgerufen tokenization.

Sobald alle potenziellen Zeichen im Bild tokenisiert sind, kann die OCR-Software zwei verschiedene Techniken verwenden, um zu ermitteln, welche Zeichen diese Zeichen tatsächlich sind:

Mustererkennung
Jedes Token wird Pixel für Pixel mit einem ganzen Satz bekannter Glyphen verglichen, einschließlich Zahlen, Satzzeichen und anderen speziellen Symbolen, und die nächste Übereinstimmung wird ausgewählt. Diese Technik wird auch als Matrixanpassung bezeichnet.

Hier gibt es mehrere Nachteile. Erstens müssen die Token und Glyphen von ähnlicher Größe sein, da sonst keine von ihnen übereinstimmt. Zweitens müssen die Token in einer ähnlichen Schriftart wie die Glyphen sein, was die Handschrift ausschließt. Ist die Schriftart des Tokens jedoch bekannt, kann die Mustererkennung schnell und genau erfolgen.

Feature-Extraktion
Jedes Token wird mit verschiedenen Regeln verglichen, die beschreiben, um welche Art von Zeichen es sich handeln kann. Beispielsweise sind zwei vertikale Linien gleicher Höhe, die durch eine einzige horizontale Linie verbunden sind, wahrscheinlich ein Großbuchstabe H.

Diese Technik ist nützlich, da sie nicht auf bestimmte Schriftarten oder Größen beschränkt ist. Es kann auch differenzierter sein, wenn man die subtilen Unterschiede zwischen einem Großbuchstaben I, einem Kleinbuchstaben L und der Zahl 1 erkennt. Der Nachteil? Das Programmieren der Regeln ist viel komplexer als das Vergleichen der Pixel in einem Token mit den Pixeln in einer Glyphe.

Schritt 3: Nachbearbeitung des Bildes

Sobald der Token-Abgleich abgeschlossen ist, kann die OCR-Software den Tag einfach aufrufen und Ihnen die Ergebnisse präsentieren. Aber in der Regel muss etwas mehr gefälscht werden, um sicherzustellen, dass Sie Ihre Augen bei Kauderwelsch nicht rollen.

Lexikalische Einschränkung
Alle Wörter werden mit einem Lexikon von genehmigten Wörtern verglichen. Wörter, die nicht übereinstimmen, werden durch das am besten passende Wort ersetzt. Ein Wörterbuch ist ein Beispiel für ein Lexikon. Dies kann helfen, Wörter mit falschen Zeichen zu korrigieren, wie z “Dorn” anstatt “th0rn”.

Anwendungsspezifische Optimierungen
Wenn OCR in Nischen-Umgebungen verwendet wird, z. B. für medizinische oder juristische Dokumente, kann eine spezielle Art von OCR verwendet werden, die speziell für diese Einstellung entwickelt wurde. In diesen Fällen sucht die OCR-Software möglicherweise nach mathematischen Gleichungen, branchenspezifischen Begriffen usw.

Natürliche Sprache
Diese fortgeschrittene Technik korrigiert Sätze, indem ein Sprachmodell verwendet wird, das beschreibt, wie wahrscheinlich bestimmte Wörter von anderen Wörtern gefolgt werden. Diese Technologie ähnelt der Technologie, die vorhersagt, welches Wort Sie als Nächstes auf einer mobilen Tastatur eingeben möchten.

Bei guter Ausführung kann dies zu bemerkenswert lesbaren Texten führen.

Empfohlene optische Zeichenerkennungswerkzeuge

Nun, da Sie wissen, wie OCR funktioniert, sollte leicht zu erkennen sein, dass nicht alle OCR-Tools gleich sind. Die Genauigkeit Ihrer Ergebnisse hängt stark davon ab, wie gut die Software die verschiedenen in diesem Artikel beschriebenen OCR-Techniken implementiert.

Wir empfehlen OneNote dafür. Dies ist nur ein Grund, warum es Evernote für das Notizen machen schlägt. Evernote vs. OneNote: Welche App für Notizen ist das Richtige für Sie? Evernote vs. OneNote: Welche App zum Mitnehmen ist das Richtige für Sie? Evernote und OneNote sind erstaunliche Apps für Notizen. Es ist schwer zwischen den beiden zu wählen. Wir haben alles von der Benutzeroberfläche bis zur Notizorganisation verglichen, um Ihnen bei der Auswahl zu helfen. Was funktioniert am besten für dich? Weiterlesen . Wenn Sie bereit sind, für eine Premium-Lösung zu bezahlen, sollten Sie OmniPage in Betracht ziehen. Vergleichen Sie OneNote vs. OmniPage für OCR Free und kostenpflichtige OCR-Software: Microsoft OneNote und Nuance OmniPage im Vergleich zu kostenpflichtiger OCR-Software: Mit Microsoft OneNote und Nuance OmniPage OCR-Scannersoftware können Sie Text in Bildern oder PDFs in bearbeitbaren Text konvertieren Unterlagen. Ist ein kostenloses OCR-Tool wie OneNote gut genug? Lass es uns herausfinden! Weiterlesen . Für mobile Dokumente sollten Sie sich diese OCR-Apps für Android-Geräte ansehen. 6 Beste Android-OCR-Apps zum Extrahieren von Text aus Bildern 6 Beste Android-OCR-Apps zum Extrahieren von Text aus Bildern Sie müssen alle gedruckten Texte digitalisieren, um sie verwalten zu können weiche Kopie davon? In diesem Fall benötigen Sie lediglich ein Werkzeug zur optischen Zeichenerkennung (OCR). Weiterlesen .

Wie benutzt du OCR? Haben Sie Lieblings-OCR-Tools, die wir nicht erwähnt haben? Lass es uns in den Kommentaren wissen!

Erfahren Sie mehr über: Image Converter, OCR.