O que é OCR? (Reconhecimento ótico de carateres)

OCR (Reconhecimento ótico de carateres)

O OCR é uma tecnologia que converte imagens de texto — documentos digitalizados, fotografias ou PDF digitalizados — em texto editável e pesquisável que o computador consegue ler.

Como funciona o OCR

Os motores de OCR analisam as formas dos carateres numa imagem, comparam-nas com padrões conhecidos e devolvem texto digital. O OCR moderno recorre a modelos de machine learning treinados com milhões de amostras, o que permite boa precisão em dezenas de tipos de letra, idiomas e esquemas de documentos.

O fluxo típico de OCR tem quatro fases: pré-processamento (endireitar, reduzir ruído, binarizar), análise do esquema (deteção de colunas, parágrafos e tabelas), reconhecimento de carateres (identificação de cada letra) e pós-processamento (correção por dicionário, recuperação de formatação).

Quando precisas de OCR

Converter documentos em papel digitalizados em PDF pesquisáveis
Extrair texto de fotografias de livros, recibos ou quadros brancos
Tornar pesquisáveis antigos arquivos de documentos
Ler texto a partir de capturas de ecrã para acessibilidade
Digitalizar formulários e faturas para inserção de dados

Precisão e suporte de idiomas

O OCR moderno atinge 95 a 99 % de precisão em texto impresso limpo. A precisão cai com má qualidade de digitalização, tipos de letra pouco comuns, manuscrito ou esquemas complexos. O Tesseract 5 (o motor open-source que a Konomic utiliza) suporta mais de 100 idiomas, incluindo os alfabetos latino, cirílico, CJK, árabe e hebraico.

OCR vs. extração de texto — a diferença

Um PDF criado digitalmente já contém texto selecionável e copiável — não precisa de OCR. O OCR só é necessário quando o texto existe apenas como imagem (páginas digitalizadas, fotografias). Se não consegues selecionar texto num PDF arrastando o cursor, é provável que precises de OCR.

Experimente você próprio

Extrair texto de PDF digitalizados e imagens

Abrir ferramenta

OCR (Reconhecimento ótico de carateres)

O OCR é uma tecnologia que converte imagens de texto — documentos digitalizados, fotografias ou PDF digitalizados — em texto editável e pesquisável que o computador consegue ler.

Como funciona o OCR

Quando precisas de OCR

Converter documentos em papel digitalizados em PDF pesquisáveis
Extrair texto de fotografias de livros, recibos ou quadros brancos
Tornar pesquisáveis antigos arquivos de documentos
Ler texto a partir de capturas de ecrã para acessibilidade
Digitalizar formulários e faturas para inserção de dados

Precisão e suporte de idiomas

OCR vs. extração de texto — a diferença

Experimente você próprio

Extrair texto de PDF digitalizados e imagens

Abrir ferramenta

OCR (Reconhecimento ótico de carateres)

Como funciona o OCR

Quando precisas de OCR

Precisão e suporte de idiomas

OCR vs. extração de texto — a diferença

Termos relacionados

OCR (Reconhecimento ótico de carateres)

Como funciona o OCR

Quando precisas de OCR

Precisão e suporte de idiomas

OCR vs. extração de texto — a diferença

Termos relacionados