KonomicKonomic
← Назад в глоссарий

OCR (Оптическое распознавание символов)

OCR — технология, которая превращает изображения с текстом (сканы документов, фотографии, сканы PDF) в редактируемый и доступный для поиска текст, понятный компьютеру.

Как работает OCR

Движки OCR анализируют форму символов на изображении, сопоставляют их с известными шаблонами букв и выдают цифровой текст. Современный OCR использует модели машинного обучения, обученные на миллионах образцов текста, и потому точно справляется с десятками шрифтов, языков и макетов документов.

Типовой конвейер OCR состоит из четырёх этапов: предобработка (исправление перекоса, удаление шума, бинаризация), анализ макета (поиск колонок, абзацев, таблиц), распознавание символов (идентификация отдельных букв) и постобработка (проверка по словарю, восстановление форматирования).

Когда нужен OCR

  • Преобразование отсканированных бумажных документов в PDF с поиском по тексту
  • Извлечение текста с фотографий книг, чеков, маркерных досок
  • Создание поиска по старым архивам документов
  • Чтение текста со скриншотов для доступности
  • Оцифровка форм и счетов для ввода данных

Точность и поддержка языков

Современный OCR достигает 95–99% точности на чистом печатном тексте. Точность падает при плохом сканировании, необычных шрифтах, рукописном тексте или сложных макетах. Tesseract 5 (движок с открытым кодом, который использует Konomic) поддерживает более 100 языков: латиница, кириллица, иероглифы (CJK), арабский, иврит.

OCR и обычное извлечение текста — в чём разница

PDF, созданный из цифрового источника, уже содержит текст, который можно выделить и скопировать — OCR не нужен. OCR требуется только тогда, когда текст существует лишь как изображение (сканы страниц, фотографии). Если в PDF нельзя выделить текст мышью — скорее всего, без OCR не обойтись.

Попробовать самостоятельно

Извлечь текст из сканированных PDF и изображений

Открыть инструмент

Похожие термины