Has abierto un PDF, has intentado resaltar una frase y no ha pasado nada — tu cursor solo se desliza sobre la página como si fuera una foto. Eso es porque es una foto. La página es una imagen, no texto. Para hacerla editable y buscable, necesitas OCR.
TL;DR
OCR (Optical Character Recognition / reconocimiento óptico de caracteres) lee la imagen de una página y descubre qué letras y palabras contiene, luego añade una capa de texto invisible detrás de la imagen. Después del OCR puedes seleccionar, copiar, buscar y editar el contenido como en cualquier PDF normal.
En RedaktPDF, el botón Extract text (OCR) aparece siempre que una página no tiene texto seleccionable. Un clic y la página se vuelve editable.
Por qué algunos PDFs no tienen texto
Los PDFs vienen de dos fuentes muy distintas, y eso marca la diferencia.
Los PDFs nativos los genera software — Word, Google Docs, un diálogo de imprimir a PDF, una exportación desde una herramienta de diseño. El texto se almacena como caracteres reales, así que tu ordenador sabe que la forma en la página es la letra "A". Puedes resaltarla, buscarla, copiarla.
Los PDFs escaneados son fotos. Un escáner, la cámara del móvil o un fax captura la página como imagen y la envuelve en un contenedor PDF. Para tu ordenador, la página es solo píxeles. No hay "A" — hay una mancha de píxeles oscuros con la forma aproximada de una A. Sin OCR, el documento es esencialmente un álbum de fotos.
Lo mismo ocurre cuando alguien hace una captura de pantalla de un documento, la mete en un PDF o escanea un contrato antiguo en papel. Visualmente parece una página normal, pero mecánicamente es un muro.
Cómo funciona el OCR
El reconocimiento óptico de caracteres es el proceso de mirar los píxeles de una imagen y decidir qué caracteres representan. Los motores modernos de OCR lo hacen aproximadamente en tres pasos:
- Preprocesamiento. Limpia la imagen — endereza escaneos torcidos, aumenta el contraste, elimina ruido — para que el texto quede lo más nítido posible.
- Segmentación. Encuentra dónde está el texto. El motor identifica bloques de texto, luego líneas dentro de cada bloque, y luego caracteres o formas de palabra individuales.
- Reconocimiento. Empareja cada forma con un carácter. Los OCR más antiguos usaban reglas hechas a mano; los motores modernos usan redes neuronales entrenadas que han visto millones de ejemplos de cada letra en docenas de fuentes.
La salida es una lista de palabras reconocidas más sus posiciones en la página. Esa lista se almacena como una capa de texto invisible alineada con la imagen, así que la página parece idéntica, pero ahora tu lector de PDF puede encontrar palabras, tu editor puede cambiarlas y tus herramientas de accesibilidad pueden leerlas en voz alta.
El OCR no es perfecto — escaneos de baja calidad, fuentes inusuales y escritura a mano pueden hacerlo tropezar — pero para la mayoría de documentos impresos la precisión es lo bastante alta como para que el resultado se sienta indistinguible de un PDF nativo.
Cuándo necesitas OCR
Necesitas OCR cada vez que un PDF se comporta como una imagen en lugar de como un documento. Las señales más claras:
- No puedes seleccionar texto con el cursor.
- Buscar una palabra que está claramente visible en la página no devuelve resultados.
- Un lector de pantalla se salta el contenido.
- Tu editor de PDF se niega a dejarte editar el texto.
Si alguna de estas es cierta, a la página le falta su capa de texto, y el OCR es lo que la añade.
Cómo ejecuta OCR RedaktPDF
Cuando subes un PDF a RedaktPDF, este analiza cada página en busca de una capa de texto existente. Si una página no tiene ninguna — o tiene tan poco texto que sospechamos que es un escaneo — aparece un banner ámbar en la parte superior de esa página con un botón Extract text (OCR).
Haz clic y el OCR se ejecuta en tu navegador. La imagen de la página se procesa localmente usando Tesseract.js, un motor de OCR open-source. Ningún paso del OCR requiere enviar la imagen a un servidor, lo que mantiene el contenido privado — el mismo principio que sustenta todo lo demás en el modelo de privacidad de RedaktPDF.
Una vez termina el OCR, la página obtiene una capa de texto fresca. Inmediatamente puedes:
- Seleccionar y copiar texto con el cursor.
- Buscar en el documento con Ctrl/Cmd-F.
- Editar el texto reconocido usando la herramienta de texto.
- Redactar palabras específicas usando la herramienta de redacción.
OCR es una función Pro y Business porque es computacionalmente pesada y queremos que el editor se mantenga ágil para todos en el nivel gratuito. Si tienes muchos documentos escaneados con los que trabajar, se amortiza rápido.
Límites a tener en cuenta
Algunas cosas a tener presentes:
- Calidad de entrada, calidad de salida. Un escaneo claro a 300 DPI se reconoce casi a la perfección. Una foto borrosa de un recibo arrugado producirá errores.
- El idioma importa. El OCR de RedaktPDF actualmente funciona mejor con idiomas de alfabeto latino. Las escrituras de derecha a izquierda y los conjuntos de caracteres complejos como chino o árabe aún no están soportados.
- La escritura a mano es difícil. El OCR está diseñado para texto impreso. El reconocimiento de manuscritos existe pero es una tecnología distinta y no forma parte del OCR estándar.
- La maquetación puede desplazarse. El OCR coloca la capa de texto detrás de la imagen, pero no aplica reflujo a los párrafos. Las tablas y maquetaciones multicolumna se reconocen como texto pero se mantienen en sus posiciones originales.
Si la calidad del reconocimiento te importa más que la comodidad, lo mejor que puedes hacer es empezar con un escaneo en alta resolución. Todo lo posterior — editar, buscar, redactar — es solo tan preciso como el pase de OCR que lo alimentó.
Pruébalo
Sube un PDF escaneado a RedaktPDF, ábrelo en el editor y busca el banner Extract text (OCR) sobre cualquier página sin texto seleccionable. Un clic es todo lo que hace falta para convertir un muro de píxeles en un documento real y funcional.
¿Listo para probar RedaktPDF?
Edita, redacta y anota PDF directamente en tu navegador — gratis y cifrado.
Empezar