Caviardage PDF vs. cache noir : pourquoi la différence compte
Ouvrez à peu près n'importe quel outil PDF en ligne, trouvez la barre d'annotation, dessinez un rectangle noir sur un numéro de sécurité sociale, exportez. La page paraît caviardée. Le numéro n'est plus visible. Pour qui fait défiler le fichier, le travail est fait.
Il ne l'est pas. Le texte original est toujours là, à l'intérieur du PDF. Un copier-coller, une recherche de texte ou l'ouverture du fichier dans une visionneuse capable le ressortira souvent intact. Les incidents où exactement cela s'est produit — à des agences gouvernementales, des cabinets d'avocats et des entreprises du Fortune 500 — remplissent une petite bibliothèque de rapports juridiques et de presse.
Ce post est un parcours technique : pourquoi un cache noir n'est pas un caviardage, à quoi ressemble un vrai caviardage à l'intérieur d'un fichier PDF, et comment faire la différence depuis l'extérieur.
Comment les PDF stockent le contenu
Un PDF n'est pas une image de page. C'est un fichier structuré qui décrit une page comme une série d'objets : runs de texte, polices, images, tracés vectoriels et annotations. Une visionneuse PDF prend cette description et rend une page visuelle, mais les objets sous-jacents restent adressables dans le fichier.
Concrètement, un morceau de texte dans un PDF est typiquement stocké comme une série de codes de caractères positionnés à des coordonnées spécifiques, accompagnés d'une référence à une police. Quand vous tracez une boîte de sélection à la souris dans une visionneuse PDF, vous sélectionnez sur cette couche de texte, pas sur le rendu visuel. C'est pour cela que le copier-coller fonctionne ; c'est aussi pour cela qu'une recherche de texte dans un PDF retourne des résultats que l'œil nu peut ne pas remarquer sur la page.
Les annotations — surlignages, pense-bêtes, formes dessinées, et oui, les rectangles que la plupart des outils «de caviardage» utilisent — sont une catégorie distincte d'objet. Elles se superposent au flux de contenu de la page, à un z-index supérieur. Elles ne modifient pas, ne retirent pas et ne remplacent pas le contenu en dessous.
Cette séparation architecturale est utile : elle permet d'ajouter et retirer des commentaires sans toucher au document original. C'est aussi exactement ce qui fait d'un rectangle dessiné un caviardage catastrophique.
Pourquoi les caches noirs échouent
Quand vous «caviardez» en dessinant un rectangle noir plein dans un outil d'annotation et que vous exportez, le PDF résultant contient deux choses dans cette zone :
- Les objets texte d'origine, intacts dans le flux de contenu
- Une nouvelle annotation rectangle noir posée au-dessus
Ouvrez le PDF exporté dans n'importe quelle visionneuse et trois choses s'effondrent immédiatement :
- Sélectionnez à travers la zone «caviardée». La couche texte est toujours là. La visionneuse la sélectionne. Copiez, collez dans un éditeur de texte, et le contenu «caviardé» est visible.
- Lancez une recherche sur un mot que vous avez caviardé. Beaucoup de visionneuses le trouveront, surligneront sa position (qui se trouve être sous votre cache noir) et vous diront combien d'occurrences ont été trouvées.
- Supprimez l'annotation. Certaines visionneuses exposent les annotations dans un panneau latéral, où un utilisateur final peut cliquer le rectangle et le supprimer — révélant le texte original.
Même si une visionneuse particulière n'expose pas ces capacités, le flux de contenu est trivialement lisible avec n'importe lequel de plusieurs outils open source d'inspection PDF. La donnée est dans le fichier. Un cache noir au-dessus de données n'est pas un caviardage ; c'est du papier peint.
La rastérisation (conversion du PDF en image plate) est parfois proposée comme remède. Ça marche — il ne reste pas de couche texte à récupérer — mais cela détruit la couche texte de toute la page, pas seulement la zone caviardée. Vous perdez la recherche, la sélection et l'accessibilité pour tout le document pour protéger un seul champ. C'est l'option nucléaire, et elle crée ses propres problèmes.
Ce que fait un vrai caviardage
Un vrai caviardage opère sur le flux de contenu du PDF, pas par-dessus. Spécifiquement :
- Les objets texte dans la zone caviardée sont retirés du flux de contenu, pas seulement masqués.
- Les images ou graphiques vectoriels qui croisent la zone caviardée sont rognés ou remplacés pour que les pixels sous-jacents ne soient pas récupérables.
- La zone est typiquement remplie d'une couleur unie (blanc ou noir) dans le flux de contenu lui-même, pas en tant qu'annotation par-dessus.
- Les annotations qui chevauchent la zone caviardée sont retirées, puisqu'elles peuvent elles-mêmes contenir le contenu sensible.
Le test décisif : après caviardage, il n'y a rien à récupérer. Sélectionner la zone renvoie vide. La recherche de texte ne trouve rien. L'extraction du flux de contenu n'en garde pas trace. Supprimer les annotations ne change rien, puisque la donnée sensible n'a jamais été stockée comme annotation.
C'est ce que fait le caviardage par masquage de RedaktPDF. Plutôt que de peindre par-dessus le contenu, il retire les objets texte et image sous-jacents du flux de contenu du PDF avant l'export. La sortie est un fichier propre qui ne peut pas être inversé, sans rastériser le reste de la page.
Comment faire la différence depuis l'extérieur
Vous n'avez pas besoin de faire confiance au marketing d'un outil. Trois tests vous diront si un PDF caviardé l'est vraiment.
Test 1 — copier-coller. Ouvrez le PDF caviardé dans une visionneuse standard. Cliquez-glissez à travers la zone caviardée. Collez dans un éditeur de texte simple. Si vous obtenez du texte, le caviardage a échoué.
Test 2 — recherche de texte. Cherchez un mot dont vous savez qu'il était dans le contenu caviardé. Si la visionneuse le trouve — même si le résultat est dessiné sous un cache noir — la donnée est toujours dans le fichier.
Test 3 — inspection du flux de contenu. Ouvrez le fichier avec un inspecteur PDF (pdftotext de Poppler, ou plusieurs outils GUI). Dumpez le contenu texte de la page. La chaîne caviardée doit être absente.
Tout caviardage qui passe les trois tests est acceptable pour la plupart des flux de conformité. Tout ce qui échoue à un seul n'est, du point de vue de la protection des données, pas du tout un caviardage.
À retenir en pratique
Si l'outil que vous utilisez traite le caviardage comme une annotation — quelque chose que vous dessinez par-dessus une page — supposez que tout ce que vous avez jamais «caviardé» avec lui est toujours dans le fichier original. Reprenez, caviardez à nouveau avec un outil qui opère sur le flux de contenu, et vérifiez avec le triple-test ci-dessus.
Pour un exemple concret, téléversez un PDF de test dans le caviardeur RedaktPDF, masquez une zone, exportez, et lancez le test du copier-coller. La différence est immédiate. Pour le flux plus large — surtout dans les contextes GDPR, HIPAA et de discovery juridique — voir comment caviarder un PDF pour la conformité GDPR et comment caviarder des informations sensibles dans un PDF.
Prêt à essayer RedaktPDF ?
Modifiez, caviardez et annotez vos PDF directement dans votre navigateur — gratuit et chiffré.
CommencerOutils associés
Redakt PDF
Redact PDFs online free. Cover sensitive text or images with flattened whiteout areas, then export a clean PDF. Private, browser-based, no sign-up.
PDF Whiteout
Cover text or images in a PDF with whiteout boxes online free. Choose any fill color for redaction or correction. Files deleted after 2 hours. No sign-up.