OCR (Optische Zeichenerkennung)
OCR ist eine Technologie, die Bilder von Text — gescannte Dokumente, Fotos oder PDF-Scans — in editierbaren und durchsuchbaren Text umwandelt, den Computer lesen können.
So funktioniert OCR
OCR-Engines analysieren die Form der Zeichen in einem Bild, gleichen sie mit bekannten Buchstabenmustern ab und liefern digitalen Text zurück. Moderne OCR setzt auf Machine-Learning-Modelle, die an Millionen Textproben trainiert wurden — dadurch bleibt sie über Dutzende Schriften, Sprachen und Layouts genau.
Eine typische OCR-Pipeline hat vier Stufen: Vorverarbeitung (Entzerrung, Rauschunterdrückung, Binarisierung), Layoutanalyse (Erkennen von Spalten, Absätzen, Tabellen), Zeichenerkennung (Identifikation einzelner Buchstaben) und Nachbearbeitung (Wörterbuchkorrektur, Wiederherstellung der Formatierung).
Wann du OCR brauchst
- Gescannte Papierdokumente in durchsuchbare PDFs umwandeln
- Text aus Fotos von Büchern, Quittungen oder Whiteboards extrahieren
- Alte Dokumentenarchive durchsuchbar machen
- Text aus Screenshots für Barrierefreiheit lesen
- Formulare und Rechnungen für die Datenerfassung digitalisieren
Genauigkeit und Sprachunterstützung
Moderne OCR erreicht bei sauberem Drucktext eine Genauigkeit von 95 bis 99 %. Bei schlechter Scan-Qualität, ungewöhnlichen Schriften, Handschrift oder komplexen Layouts sinkt die Genauigkeit. Tesseract 5 (die Open-Source-Engine, die Konomic nutzt) unterstützt über 100 Sprachen, darunter Latein, Kyrillisch, CJK, Arabisch und Hebräisch.
OCR vs. Textextraktion — der Unterschied
Eine digital erstellte PDF enthält bereits auswählbaren und kopierbaren Text — OCR ist nicht nötig. OCR brauchst du nur, wenn der Text ausschließlich als Bild vorliegt (gescannte Seiten, Fotos). Wenn du in einer PDF keinen Text markieren kannst, brauchst du vermutlich OCR.
Text aus gescannten PDFs und Bildern extrahieren
Tool öffnen