Redazione PDF vs. sovrapposizione con riquadro nero: perché la differenza conta
Apri quasi qualsiasi strumento PDF online, trova la barra degli strumenti di annotazione, disegna un rettangolo nero sopra a un numero di previdenza sociale ed esporta. La pagina sembra redatta. Il numero non è più visibile. A chiunque scorra il file, il lavoro è fatto.
Non lo è. Il testo originale è ancora presente nel PDF. Un copia-incolla, una ricerca di testo o l'apertura del file in un viewer capace spesso lo tireranno fuori di nuovo. Incidenti in cui è successo esattamente questo — ad agenzie governative, studi legali e aziende Fortune 500 — riempiono una piccola biblioteca di report legali e di stampa.
Questo articolo è un percorso tecnico sul perché una sovrapposizione con riquadro nero non è una redazione, su come appare una vera redazione all'interno di un file PDF e su come distinguere la differenza dall'esterno.
Come i PDF memorizzano il contenuto
Un PDF non è un'immagine di una pagina. È un file strutturato che descrive una pagina come una serie di oggetti: sequenze di testo (text run), font, immagini, tracciati vettoriali e annotazioni. Un viewer PDF prende questa descrizione e renderizza una pagina visiva da essa, ma gli oggetti sottostanti rimangono indirizzabili nel file.
Concretamente, un pezzo di testo in un PDF è tipicamente memorizzato come una serie di codici di carattere posizionati a coordinate specifiche, insieme a un riferimento a un font. Quando disegni un riquadro di selezione con il mouse in un viewer PDF, stai selezionando su questo strato di testo, non sul rendering visivo. Ecco perché il copia-incolla funziona; è anche per questo che una ricerca di testo all'interno di un PDF restituisce risultati che a occhio nudo potresti nemmeno notare sulla pagina.
Le annotazioni — evidenziazioni, note adesive, forme disegnate e sì, i rettangoli che la maggior parte degli strumenti di "redazione" usa — sono una categoria separata di oggetto. Si trovano sopra al content stream della pagina, a un z-index più alto. Non modificano, rimuovono o sostituiscono il contenuto sottostante.
Questa separazione architettonica è utile: ti permette di aggiungere e rimuovere commenti senza toccare il documento originale. È anche esattamente ciò che rende un rettangolo disegnato una pessima redazione.
Perché le sovrapposizioni con riquadro nero falliscono
Quando "redarre" disegnando un rettangolo nero riempito in uno strumento di annotazione ed esporti, il PDF risultante contiene due cose in quella regione:
- Gli oggetti di testo originali, intatti nel content stream
- Una nuova annotazione rettangolo nero stratificata sopra di essi
Apri il PDF esportato in qualsiasi viewer e tre cose crollano immediatamente:
- Seleziona attraverso la regione "redatta". Lo strato di testo è ancora lì. Il viewer lo seleziona. Copia, incolla in un editor di testo e il contenuto "redatto" è visibile.
- Esegui una ricerca di testo per una parola che hai redatto. Molti viewer la troveranno volentieri, evidenzieranno la sua posizione (che si trova sotto il tuo riquadro nero) e ti diranno quante corrispondenze ha trovato.
- Elimina l'annotazione. Alcuni viewer espongono le annotazioni in un pannello laterale, dove un utente finale può cliccare sul rettangolo ed eliminarlo — rivelando il testo originale.
Anche se un particolare viewer non espone queste capacità, il content stream è banalmente leggibile con uno qualsiasi dei vari strumenti di ispezione PDF open source. I dati sono nel file. Un riquadro nero sopra ai dati non è redazione; è carta da parati.
La rasterizzazione (convertire il PDF in un'immagine piatta) viene a volte proposta come soluzione. Funziona — non c'è strato di testo rimasto da recuperare — ma distrugge lo strato di testo per l'intera pagina, non solo per la regione redatta. Perdi ricercabilità, selezionabilità e accessibilità per l'intero documento per proteggere un singolo campo. È l'opzione nucleare e crea problemi a sé.
Cosa fa una vera redazione
Una vera redazione opera sul content stream del PDF, non sopra di esso. Specificamente:
- Gli oggetti di testo nella regione redatta vengono rimossi dal content stream, non semplicemente nascosti.
- Qualsiasi immagine o grafica vettoriale che interseca la regione redatta viene ritagliata o sostituita in modo che i pixel sottostanti non siano recuperabili.
- La regione viene tipicamente riempita con un colore solido (bianco o nero) nel content stream stesso, non come un'annotazione sopra.
- Le annotazioni che si sovrappongono alla regione redatta vengono rimosse, poiché potrebbero contenere esse stesse il contenuto sensibile.
Il test definitivo: dopo la redazione, non c'è nulla da recuperare. Selezionare la regione restituisce vuoto. La ricerca di testo non corrisponde. Estrarre il content stream non produce traccia dell'originale. Eliminare le annotazioni non cambia nulla, perché i dati sensibili non sono mai stati memorizzati come annotazione.
Questo è ciò che fa la redazione whiteout di RedaktPDF. Invece di dipingere sopra al contenuto, rimuove gli oggetti di testo e immagine sottostanti dal content stream del PDF prima dell'esportazione. L'output è un file pulito che non può essere invertito, senza rasterizzare il resto della pagina.
Come distinguere la differenza dall'esterno
Non hai bisogno di fidarti del marketing di uno strumento. Tre test ti diranno se un PDF redatto è effettivamente redatto.
Test 1 — Copia-incolla. Apri il PDF redatto in un viewer standard. Clicca e trascina attraverso la regione redatta. Incolla in un editor di testo semplice. Se ottieni testo, la redazione è fallita.
Test 2 — Ricerca di testo. Cerca una parola che sai essere nel contenuto redatto. Se il viewer la trova — anche se la corrispondenza è disegnata sotto a un riquadro nero — i dati sono ancora nel file.
Test 3 — Ispeziona il content stream. Apri il file con un PDF inspector (pdftotext da Poppler, o uno qualsiasi dei vari strumenti GUI). Esegui il dump del contenuto di testo per la pagina. La stringa redatta dovrebbe essere assente.
Qualsiasi redazione che supera tutti e tre i test è accettabile per la maggior parte dei flussi di lavoro di conformità. Qualsiasi cosa fallisca anche solo uno di essi non è affatto una redazione, dal punto di vista della protezione dei dati.
Il punto pratico
Se lo strumento che usi tratta la redazione come un'annotazione — qualcosa che disegni sopra a una pagina — supponi che tutto ciò che hai mai "redatto" con esso sia ancora nel file originale. Torna indietro, redarre di nuovo usando uno strumento che opera sul content stream e verifica con la procedura a tre test sopra.
Per un esempio funzionante, carica un PDF di esempio sullo strumento di redazione di RedaktPDF, applica il whiteout su una regione, esporta ed esegui il test di copia-incolla. Vedrai la differenza immediatamente. Per il flusso di lavoro più ampio — specialmente in contesti GDPR, HIPAA e di discovery legale — vedi come redarre un PDF per la conformità GDPR e come redarre informazioni sensibili da un PDF.
Pronto a provare RedaktPDF?
Modifica, oscura e annota PDF direttamente dal browser — gratis e cifrato.
Inizia oraStrumenti correlati
Redakt PDF
Redact PDFs online free. Cover sensitive text or images with flattened whiteout areas, then export a clean PDF. Private, browser-based, no sign-up.
PDF Whiteout
Cover text or images in a PDF with whiteout boxes online free. Choose any fill color for redaction or correction. Files deleted after 2 hours. No sign-up.