KonomicKonomic
← Zurück zum Glossar

OCR (Optische Zeichenerkennung)

OCR ist eine Technologie, die Bilder von Text — gescannte Dokumente, Fotos oder PDF-Scans — in editierbaren und durchsuchbaren Text umwandelt, den Computer lesen können.

So funktioniert OCR

OCR-Engines analysieren die Form der Zeichen in einem Bild, gleichen sie mit bekannten Buchstabenmustern ab und liefern digitalen Text zurück. Moderne OCR setzt auf Machine-Learning-Modelle, die an Millionen Textproben trainiert wurden — dadurch bleibt sie über Dutzende Schriften, Sprachen und Layouts genau.

Eine typische OCR-Pipeline hat vier Stufen: Vorverarbeitung (Entzerrung, Rauschunterdrückung, Binarisierung), Layoutanalyse (Erkennen von Spalten, Absätzen, Tabellen), Zeichenerkennung (Identifikation einzelner Buchstaben) und Nachbearbeitung (Wörterbuchkorrektur, Wiederherstellung der Formatierung).

Wann du OCR brauchst

  • Gescannte Papierdokumente in durchsuchbare PDFs umwandeln
  • Text aus Fotos von Büchern, Quittungen oder Whiteboards extrahieren
  • Alte Dokumentenarchive durchsuchbar machen
  • Text aus Screenshots für Barrierefreiheit lesen
  • Formulare und Rechnungen für die Datenerfassung digitalisieren

Genauigkeit und Sprachunterstützung

Moderne OCR erreicht bei sauberem Drucktext eine Genauigkeit von 95 bis 99 %. Bei schlechter Scan-Qualität, ungewöhnlichen Schriften, Handschrift oder komplexen Layouts sinkt die Genauigkeit. Tesseract 5 (die Open-Source-Engine, die Konomic nutzt) unterstützt über 100 Sprachen, darunter Latein, Kyrillisch, CJK, Arabisch und Hebräisch.

OCR vs. Textextraktion — der Unterschied

Eine digital erstellte PDF enthält bereits auswählbaren und kopierbaren Text — OCR ist nicht nötig. OCR brauchst du nur, wenn der Text ausschließlich als Bild vorliegt (gescannte Seiten, Fotos). Wenn du in einer PDF keinen Text markieren kannst, brauchst du vermutlich OCR.

Selbst ausprobieren

Text aus gescannten PDFs und Bildern extrahieren

Tool öffnen