OCR (Reconnaissance optique de caractères)
L'OCR est une technologie qui convertit les images de texte — documents numérisés, photos ou PDF scannés — en texte éditable et recherchable, lisible par un ordinateur.
Comment fonctionne l'OCR
Les moteurs OCR analysent la forme des caractères présents sur une image, les rapprochent de modèles connus et produisent du texte numérique. L'OCR moderne s'appuie sur des modèles de machine learning entraînés sur des millions d'exemples — ce qui lui permet d'être précis sur des dizaines de polices, de langues et de mises en page.
Le pipeline OCR classique comporte quatre étapes : pré-traitement (redressement, débruitage, binarisation), analyse de la mise en page (détection des colonnes, paragraphes, tableaux), reconnaissance des caractères (identification des lettres) et post-traitement (correction par dictionnaire, restitution de la mise en forme).
Quand l'OCR est nécessaire
- Transformer des documents papier numérisés en PDF recherchables
- Extraire du texte depuis des photos de livres, de reçus ou de tableaux blancs
- Rendre d'anciennes archives documentaires recherchables
- Lire du texte depuis des captures d'écran pour l'accessibilité
- Numériser formulaires et factures pour la saisie de données
Précision et langues prises en charge
L'OCR moderne atteint 95 à 99 % de précisionsur du texte imprimé propre. La précision baisse avec une mauvaise qualité de numérisation, des polices inhabituelles, de l'écriture manuscrite ou des mises en page complexes. Tesseract 5 (le moteur open source utilisé par Konomic) prend en charge plus de 100 langues, dont les alphabets latin, cyrillique, CJK, arabe et hébreu.
OCR contre extraction de texte — la différence
Un PDF créé numériquement contient déjà du texte sélectionnable et copiable — pas besoin d'OCR. L'OCR n'est nécessaire que lorsque le texte n'existe que sous forme d'image (pages numérisées, photos). Si vous ne pouvez pas sélectionner de texte dans un PDF en faisant glisser la souris, il vous faut probablement de l'OCR.
Extraire le texte de PDF numérisés et d'images
Ouvrir l'outil