Qu'est-ce que l'OCR et comment ça marche dans un PDF ?
Vous avez ouvert un PDF, essayé de surligner une phrase, et rien ne s'est passé — votre curseur glisse sur la page comme si c'était une photo. C'est parce que c'en est une. La page est une image, pas du texte. Pour la rendre éditable et permettre la recherche, il vous faut l'OCR.
TL;DR
L'OCR (reconnaissance optique de caractères) lit l'image d'une page et détermine quelles lettres et quels mots s'y trouvent, puis ajoute une couche de texte invisible derrière l'image. Après OCR, vous pouvez sélectionner, copier, rechercher et éditer le contenu comme dans tout PDF normal.
Dans RedaktPDF, le bouton Extraire le texte (OCR) apparaît dès qu'une page n'a aucun texte sélectionnable. Un clic et la page devient éditable.
Pourquoi certains PDF n'ont pas de texte
Les PDF viennent de deux sources très différentes, et c'est ce qui fait la différence.
Les PDF natifs sont générés par logiciel — Word, Google Docs, une boîte d'impression en PDF, un export depuis un outil de design. Le texte y est stocké sous forme de vrais caractères, donc votre ordinateur sait que la forme sur la page est la lettre «A». Vous pouvez la surligner, la rechercher, la copier.
Les PDF numérisés sont des images. Un scanner, un appareil photo de téléphone ou un fax capture la page comme image et l'enveloppe dans un conteneur PDF. Pour votre ordinateur, la page n'est que des pixels. Il n'y a pas de «A» — il y a une tache de pixels foncés vaguement en forme de A. Sans OCR, le document est essentiellement un album photo.
Même chose quand quelqu'un fait une capture d'écran d'un document, la dépose dans un PDF, ou numérise un vieux contrat papier. Visuellement, ça ressemble à une page normale, mais mécaniquement c'est un mur.
Comment fonctionne l'OCR
La reconnaissance optique de caractères, c'est regarder les pixels d'une image et décider quels caractères ils représentent. Les moteurs OCR modernes le font en gros en trois étapes :
- Prétraitement. Nettoyer l'image — redresser les numérisations de travers, augmenter le contraste, retirer le bruit — pour que le texte soit aussi net que possible.
- Segmentation. Trouver où est le texte. Le moteur identifie des blocs de texte, puis des lignes dans chaque bloc, puis des caractères individuels ou des formes de mots.
- Reconnaissance. Faire correspondre chaque forme à un caractère. Les anciens OCR utilisaient des règles manuelles ; les moteurs modernes utilisent des réseaux de neurones entraînés ayant vu des millions d'exemples de chaque lettre dans des dizaines de polices.
La sortie est une liste de mots reconnus et leurs positions sur la page. Cette liste est stockée comme couche de texte invisible alignée sur l'image, donc la page a l'air identique, mais maintenant votre lecteur PDF peut trouver des mots, votre éditeur peut les modifier et vos outils d'accessibilité peuvent les lire à haute voix.
L'OCR n'est pas parfait — numérisations de mauvaise qualité, polices inhabituelles et écriture manuscrite peuvent le faire trébucher — mais pour la plupart des documents imprimés la précision est assez haute pour que le résultat soit indiscernable d'un PDF natif.
Quand vous avez besoin d'OCR
Vous avez besoin d'OCR chaque fois qu'un PDF se comporte comme une image plutôt qu'un document. Les signes les plus clairs :
- Vous ne pouvez pas sélectionner de texte avec le curseur.
- Une recherche sur un mot clairement visible sur la page ne renvoie rien.
- Un lecteur d'écran saute par-dessus le contenu.
- Votre éditeur PDF refuse de vous laisser modifier le texte.
Si l'un de ces signes est vrai, la page n'a pas de couche texte, et l'OCR est ce qui l'ajoute.
Comment RedaktPDF fait tourner l'OCR
Quand vous téléversez un PDF dans RedaktPDF, il parcourt chaque page à la recherche d'une couche texte existante. Si une page n'en a pas — ou en a si peu que nous soupçonnons une numérisation — une bannière ambre apparaît en haut de cette page avec un bouton Extraire le texte (OCR).
Cliquez et l'OCR s'exécute dans votre navigateur. L'image de la page est traitée localement avec Tesseract.js, un moteur OCR open source. Aucune étape de l'OCR ne nécessite l'envoi de l'image à un serveur, ce qui garde le contenu privé — le même principe que tout le reste du modèle de confidentialité de RedaktPDF.
Une fois l'OCR terminé, la page obtient une nouvelle couche texte. Vous pouvez immédiatement :
- Sélectionner et copier du texte avec le curseur.
- Rechercher dans le document avec Ctrl/Cmd-F.
- Éditer le texte reconnu avec l'outil texte.
- Caviarder des mots précis avec l'outil de caviardage.
L'OCR est une fonctionnalité Pro et Business car il est lourd en calcul et nous voulons que l'éditeur reste réactif pour tout le monde en offre gratuite. Si vous avez beaucoup de documents numérisés à traiter, l'investissement est vite rentabilisé.
Limites à connaître
Quelques points à garder en tête :
- Qualité en entrée, qualité en sortie. Une numérisation nette à 300 DPI est reconnue quasi parfaitement. Une photo floue d'un reçu froissé produira des erreurs.
- La langue compte. L'OCR de RedaktPDF fonctionne actuellement le mieux sur les langues à alphabet latin. Les écritures de droite à gauche et les jeux complexes comme le chinois ou l'arabe ne sont pas encore pris en charge.
- L'écriture manuscrite est difficile. L'OCR est conçu pour le texte imprimé. La reconnaissance d'écriture manuscrite existe mais relève d'une autre technologie et ne fait pas partie de l'OCR standard.
- La mise en page peut bouger. L'OCR place la couche texte derrière l'image, mais ne recoule pas les paragraphes. Tableaux et mises en page multicolonnes sont reconnus comme texte mais conservés dans leur position d'origine.
Si la qualité de reconnaissance importe plus que la commodité, la meilleure chose à faire est de partir d'une numérisation haute résolution. Tout ce qui vient ensuite — édition, recherche, caviardage — n'est aussi précis que la passe OCR qui l'a alimenté.
Essayez
Téléversez un PDF numérisé dans RedaktPDF, ouvrez-le dans l'éditeur et cherchez la bannière Extraire le texte (OCR) au-dessus de toute page sans texte sélectionnable. Un clic suffit à transformer un mur de pixels en document fonctionnel.
Prêt à essayer RedaktPDF ?
Modifiez, caviardez et annotez vos PDF directement dans votre navigateur — gratuit et chiffré.
Commencer