OCR (Reconhecimento ótico de carateres)
O OCR é uma tecnologia que converte imagens de texto — documentos digitalizados, fotografias ou PDF digitalizados — em texto editável e pesquisável que o computador consegue ler.
Como funciona o OCR
Os motores de OCR analisam as formas dos carateres numa imagem, comparam-nas com padrões conhecidos e devolvem texto digital. O OCR moderno recorre a modelos de machine learning treinados com milhões de amostras, o que permite boa precisão em dezenas de tipos de letra, idiomas e esquemas de documentos.
O fluxo típico de OCR tem quatro fases: pré-processamento (endireitar, reduzir ruído, binarizar), análise do esquema (deteção de colunas, parágrafos e tabelas), reconhecimento de carateres (identificação de cada letra) e pós-processamento (correção por dicionário, recuperação de formatação).
Quando precisas de OCR
- Converter documentos em papel digitalizados em PDF pesquisáveis
- Extrair texto de fotografias de livros, recibos ou quadros brancos
- Tornar pesquisáveis antigos arquivos de documentos
- Ler texto a partir de capturas de ecrã para acessibilidade
- Digitalizar formulários e faturas para inserção de dados
Precisão e suporte de idiomas
O OCR moderno atinge 95 a 99 % de precisão em texto impresso limpo. A precisão cai com má qualidade de digitalização, tipos de letra pouco comuns, manuscrito ou esquemas complexos. O Tesseract 5 (o motor open-source que a Konomic utiliza) suporta mais de 100 idiomas, incluindo os alfabetos latino, cirílico, CJK, árabe e hebraico.
OCR vs. extração de texto — a diferença
Um PDF criado digitalmente já contém texto selecionável e copiável — não precisa de OCR. O OCR só é necessário quando o texto existe apenas como imagem (páginas digitalizadas, fotografias). Se não consegues selecionar texto num PDF arrastando o cursor, é provável que precises de OCR.
Extrair texto de PDF digitalizados e imagens
Abrir ferramenta