Qu'est-ce que l'OCR ? (Reconnaissance optique de caractères)

OCR (Reconnaissance optique de caractères)

L'OCR est une technologie qui convertit les images de texte — documents numérisés, photos ou PDF scannés — en texte éditable et recherchable, lisible par un ordinateur.

Comment fonctionne l'OCR

Les moteurs OCR analysent la forme des caractères présents sur une image, les rapprochent de modèles connus et produisent du texte numérique. L'OCR moderne s'appuie sur des modèles de machine learning entraînés sur des millions d'exemples — ce qui lui permet d'être précis sur des dizaines de polices, de langues et de mises en page.

Le pipeline OCR classique comporte quatre étapes : pré-traitement (redressement, débruitage, binarisation), analyse de la mise en page (détection des colonnes, paragraphes, tableaux), reconnaissance des caractères (identification des lettres) et post-traitement (correction par dictionnaire, restitution de la mise en forme).

Quand l'OCR est nécessaire

Transformer des documents papier numérisés en PDF recherchables
Extraire du texte depuis des photos de livres, de reçus ou de tableaux blancs
Rendre d'anciennes archives documentaires recherchables
Lire du texte depuis des captures d'écran pour l'accessibilité
Numériser formulaires et factures pour la saisie de données

Précision et langues prises en charge

L'OCR moderne atteint 95 à 99 % de précisionsur du texte imprimé propre. La précision baisse avec une mauvaise qualité de numérisation, des polices inhabituelles, de l'écriture manuscrite ou des mises en page complexes. Tesseract 5 (le moteur open source utilisé par Konomic) prend en charge plus de 100 langues, dont les alphabets latin, cyrillique, CJK, arabe et hébreu.

OCR contre extraction de texte — la différence

Un PDF créé numériquement contient déjà du texte sélectionnable et copiable — pas besoin d'OCR. L'OCR n'est nécessaire que lorsque le texte n'existe que sous forme d'image (pages numérisées, photos). Si vous ne pouvez pas sélectionner de texte dans un PDF en faisant glisser la souris, il vous faut probablement de l'OCR.

Essayez vous-même

Extraire le texte de PDF numérisés et d'images

Ouvrir l'outil

OCR (Reconnaissance optique de caractères)

L'OCR est une technologie qui convertit les images de texte — documents numérisés, photos ou PDF scannés — en texte éditable et recherchable, lisible par un ordinateur.

Comment fonctionne l'OCR

Quand l'OCR est nécessaire

Transformer des documents papier numérisés en PDF recherchables
Extraire du texte depuis des photos de livres, de reçus ou de tableaux blancs
Rendre d'anciennes archives documentaires recherchables
Lire du texte depuis des captures d'écran pour l'accessibilité
Numériser formulaires et factures pour la saisie de données

Précision et langues prises en charge

OCR contre extraction de texte — la différence

Essayez vous-même

Extraire le texte de PDF numérisés et d'images

Ouvrir l'outil

OCR (Reconnaissance optique de caractères)

Comment fonctionne l'OCR

Quand l'OCR est nécessaire

Précision et langues prises en charge

OCR contre extraction de texte — la différence

Termes associés

OCR (Reconnaissance optique de caractères)

Comment fonctionne l'OCR

Quand l'OCR est nécessaire

Précision et langues prises en charge

OCR contre extraction de texte — la différence

Termes associés