KonomicKonomic
← Voltar ao glossário

OCR (Reconhecimento ótico de carateres)

O OCR é uma tecnologia que converte imagens de texto — documentos digitalizados, fotografias ou PDF digitalizados — em texto editável e pesquisável que o computador consegue ler.

Como funciona o OCR

Os motores de OCR analisam as formas dos carateres numa imagem, comparam-nas com padrões conhecidos e devolvem texto digital. O OCR moderno recorre a modelos de machine learning treinados com milhões de amostras, o que permite boa precisão em dezenas de tipos de letra, idiomas e esquemas de documentos.

O fluxo típico de OCR tem quatro fases: pré-processamento (endireitar, reduzir ruído, binarizar), análise do esquema (deteção de colunas, parágrafos e tabelas), reconhecimento de carateres (identificação de cada letra) e pós-processamento (correção por dicionário, recuperação de formatação).

Quando precisas de OCR

  • Converter documentos em papel digitalizados em PDF pesquisáveis
  • Extrair texto de fotografias de livros, recibos ou quadros brancos
  • Tornar pesquisáveis antigos arquivos de documentos
  • Ler texto a partir de capturas de ecrã para acessibilidade
  • Digitalizar formulários e faturas para inserção de dados

Precisão e suporte de idiomas

O OCR moderno atinge 95 a 99 % de precisão em texto impresso limpo. A precisão cai com má qualidade de digitalização, tipos de letra pouco comuns, manuscrito ou esquemas complexos. O Tesseract 5 (o motor open-source que a Konomic utiliza) suporta mais de 100 idiomas, incluindo os alfabetos latino, cirílico, CJK, árabe e hebraico.

OCR vs. extração de texto — a diferença

Um PDF criado digitalmente já contém texto selecionável e copiável — não precisa de OCR. O OCR só é necessário quando o texto existe apenas como imagem (páginas digitalizadas, fotografias). Se não consegues selecionar texto num PDF arrastando o cursor, é provável que precises de OCR.

Experimente você próprio

Extrair texto de PDF digitalizados e imagens

Abrir ferramenta