← Torna al blog

Cos'è l'OCR e come funziona in un PDF?

Jury D'Ambros··4 min di lettura

Hai aperto un PDF, hai provato a evidenziare una frase e non è successo nulla — il tuo cursore scivola sulla pagina come se fosse una foto. Questo perché è una foto. La pagina è un'immagine, non testo. Per renderla modificabile e ricercabile, hai bisogno dell'OCR.

TL;DR

L'OCR (Optical Character Recognition) legge l'immagine di una pagina e capisce quali lettere e parole ci sono, poi aggiunge uno strato di testo invisibile dietro all'immagine. Dopo l'OCR, puoi selezionare, copiare, cercare e modificare il contenuto come qualsiasi PDF normale.

In RedaktPDF, il pulsante Estrai testo (OCR) appare ogni volta che una pagina non ha testo selezionabile. Un clic, e la pagina diventa modificabile.

Perché alcuni PDF non hanno testo

I PDF provengono da due fonti molto diverse, ed è ciò che fa la differenza.

I PDF nativi sono generati da software — Word, Google Docs, una finestra di dialogo stampa-su-PDF, un'esportazione da uno strumento di design. Il testo è memorizzato come caratteri effettivi, quindi il tuo computer sa che la forma sulla pagina è la lettera "A". Puoi evidenziarla, cercarla, copiarla.

I PDF scansionati sono immagini. Uno scanner, la fotocamera di un telefono o un fax cattura la pagina come un'immagine e la avvolge in un container PDF. Al tuo computer, la pagina è solo pixel. Non c'è una "A" — c'è una macchia di pixel scuri nella forma approssimativa di una A. Senza OCR, il documento è essenzialmente un album fotografico.

La stessa cosa accade quando qualcuno fa uno screenshot di un documento, lo inserisce in un PDF o scansiona un vecchio contratto cartaceo. Visivamente sembra una pagina normale, ma meccanicamente è un muro.

Come funziona l'OCR

Il riconoscimento ottico dei caratteri è il processo di guardare i pixel di un'immagine e decidere quali caratteri rappresentano. I motori OCR moderni lo fanno in circa tre passi:

  1. Preprocessing. Pulisce l'immagine — raddrizza scansioni storte, aumenta il contrasto, rimuove il rumore — in modo che il testo sia il più nitido possibile.
  2. Segmentazione. Trova dove si trova il testo. Il motore identifica blocchi di testo, poi righe all'interno di ogni blocco, poi singoli caratteri o forme di parole.
  3. Riconoscimento. Abbina ogni forma a un carattere. Il vecchio OCR usava regole scritte manualmente; i motori moderni usano reti neurali addestrate che hanno visto milioni di esempi di ogni lettera in decine di font.

L'output è una lista di parole riconosciute più le loro posizioni sulla pagina. Quella lista viene memorizzata come strato di testo invisibile allineato con l'immagine, quindi la pagina sembra identica, ma ora il tuo viewer PDF può trovare parole, il tuo editor può cambiarle e i tuoi strumenti di accessibilità possono leggerle ad alta voce.

L'OCR non è perfetto — scansioni di bassa qualità, font insoliti e scrittura a mano possono tutti metterlo in difficoltà — ma per la maggior parte dei documenti stampati l'accuratezza è abbastanza alta che il risultato sembra indistinguibile da un PDF nativo.

Quando hai bisogno dell'OCR

Hai bisogno dell'OCR ogni volta che un PDF si comporta come un'immagine invece che come un documento. I segni più chiari:

  • Non puoi selezionare il testo con il cursore.
  • Cercare una parola che è chiaramente visibile sulla pagina non restituisce risultati.
  • Uno screen reader salta il contenuto.
  • Il tuo editor PDF si rifiuta di farti modificare il testo.

Se una di queste è vera, alla pagina manca il suo strato di testo, e l'OCR è ciò che lo aggiunge.

Come RedaktPDF esegue l'OCR

Quando carichi un PDF su RedaktPDF, RedaktPDF esamina ogni pagina alla ricerca di uno strato di testo esistente. Se una pagina non ne ha — o ha così poco testo da farci sospettare che sia una scansione — appare un banner color ambra in cima a quella pagina con un pulsante Estrai testo (OCR).

Cliccalo, e l'OCR viene eseguito nel tuo browser. L'immagine della pagina viene elaborata localmente usando Tesseract.js, un motore OCR open source. Niente del passo OCR richiede l'invio dell'immagine a un server, il che mantiene il contenuto privato — lo stesso principio dietro a tutto il resto nel modello di privacy di RedaktPDF.

Una volta che l'OCR è finito, la pagina ottiene un nuovo strato di testo. Puoi immediatamente:

  • Selezionare e copiare il testo con il cursore.
  • Cercare nel documento con Ctrl/Cmd-F.
  • Modificare il testo riconosciuto usando lo strumento di testo.
  • Redarre parole specifiche usando lo strumento di redazione.

L'OCR è una funzionalità Pro e Business perché è computazionalmente pesante e vogliamo che l'editor rimanga reattivo per tutti nel tier gratuito. Se hai molti documenti scansionati da elaborare, si ripaga rapidamente.

Limiti da conoscere

Alcune cose da tenere a mente:

  • Qualità in ingresso, qualità in uscita. Una scansione chiara a 300 DPI viene riconosciuta quasi perfettamente. Una foto sfocata di una ricevuta accartocciata produrrà errori.
  • La lingua conta. L'OCR di RedaktPDF attualmente funziona meglio sulle lingue ad alfabeto latino. Le scritture da destra a sinistra e i set di caratteri complessi come cinese o arabo non sono ancora supportati.
  • La scrittura a mano è difficile. L'OCR è progettato per il testo stampato. Il riconoscimento della scrittura a mano esiste ma è una tecnologia diversa e non fa parte dell'OCR standard.
  • Il layout può spostarsi. L'OCR posiziona lo strato di testo dietro all'immagine, ma non fa rifluire i paragrafi. Tabelle e layout multi-colonna vengono riconosciuti come testo ma mantenuti nelle loro posizioni originali.

Se la qualità del riconoscimento conta più della convenienza, la cosa migliore che puoi fare è iniziare con una scansione ad alta risoluzione. Tutto quello che viene dopo — editing, ricerca, redazione — è preciso solo quanto la passata OCR che lo ha alimentato.

Provalo

Carica un PDF scansionato su RedaktPDF, aprilo nell'editor e cerca il banner Estrai testo (OCR) sopra a qualsiasi pagina senza testo selezionabile. Un solo clic basta per trasformare un muro di pixel in un documento reale e funzionante.

Pronto a provare RedaktPDF?

Modifica, oscura e annota PDF direttamente dal browser — gratis e cifrato.

Inizia ora

Articoli correlati