OCR (Оптическое распознавание символов)
OCR — технология, которая превращает изображения с текстом (сканы документов, фотографии, сканы PDF) в редактируемый и доступный для поиска текст, понятный компьютеру.
Как работает OCR
Движки OCR анализируют форму символов на изображении, сопоставляют их с известными шаблонами букв и выдают цифровой текст. Современный OCR использует модели машинного обучения, обученные на миллионах образцов текста, и потому точно справляется с десятками шрифтов, языков и макетов документов.
Типовой конвейер OCR состоит из четырёх этапов: предобработка (исправление перекоса, удаление шума, бинаризация), анализ макета (поиск колонок, абзацев, таблиц), распознавание символов (идентификация отдельных букв) и постобработка (проверка по словарю, восстановление форматирования).
Когда нужен OCR
- Преобразование отсканированных бумажных документов в PDF с поиском по тексту
- Извлечение текста с фотографий книг, чеков, маркерных досок
- Создание поиска по старым архивам документов
- Чтение текста со скриншотов для доступности
- Оцифровка форм и счетов для ввода данных
Точность и поддержка языков
Современный OCR достигает 95–99% точности на чистом печатном тексте. Точность падает при плохом сканировании, необычных шрифтах, рукописном тексте или сложных макетах. Tesseract 5 (движок с открытым кодом, который использует Konomic) поддерживает более 100 языков: латиница, кириллица, иероглифы (CJK), арабский, иврит.
OCR и обычное извлечение текста — в чём разница
PDF, созданный из цифрового источника, уже содержит текст, который можно выделить и скопировать — OCR не нужен. OCR требуется только тогда, когда текст существует лишь как изображение (сканы страниц, фотографии). Если в PDF нельзя выделить текст мышью — скорее всего, без OCR не обойтись.
Извлечь текст из сканированных PDF и изображений
Открыть инструмент