Redacción de PDF vs. superposición de caja negra: por qué importa la diferencia
Abre casi cualquier herramienta online de PDF, encuentra la barra de anotación, dibuja un rectángulo negro sobre un número de seguridad social y exporta. La página parece redactada. El número ya no es visible. Para cualquiera que hojee el archivo, el trabajo está hecho.
No lo está. El texto original sigue dentro del PDF. Un copiar y pegar, una búsqueda de texto o abrir el archivo en un visor capaz a menudo lo sacará otra vez. Los incidentes donde ocurrió exactamente esto — a agencias gubernamentales, despachos de abogados y empresas del Fortune 500 — llenan una pequeña biblioteca de informes legales y de prensa.
Este post es un recorrido técnico sobre por qué una superposición de caja negra no es redacción (eliminación permanente de contenido), cómo es la redacción real dentro de un archivo PDF y cómo distinguir la diferencia desde fuera.
Cómo almacenan contenido los PDFs
Un PDF no es una imagen de una página. Es un archivo estructurado que describe una página como una serie de objetos: secuencias de texto, fuentes, imágenes, trazos vectoriales y anotaciones. Un visor de PDF toma esta descripción y renderiza una página visual a partir de ella, pero los objetos subyacentes permanecen direccionables en el archivo.
Concretamente, un fragmento de texto en un PDF se almacena normalmente como una serie de códigos de carácter posicionados en coordenadas específicas, junto con una referencia a una fuente. Cuando dibujas un cuadro de selección con el ratón en un visor de PDF, estás seleccionando contra esta capa de texto, no contra la representación visual. Por eso funciona el copiar y pegar; también es por eso que una búsqueda de texto dentro de un PDF devuelve resultados que el ojo desnudo puede ni siquiera notar en la página.
Las anotaciones — resaltados, notas adhesivas, formas dibujadas y sí, los rectángulos que usan la mayoría de las herramientas de "redacción" — son una categoría de objeto aparte. Se superponen al flujo de contenido de la página, en un z-index más alto. No modifican, eliminan ni reemplazan el contenido subyacente.
Esta separación arquitectónica es útil: te permite añadir y quitar comentarios sin tocar el documento original. También es exactamente lo que hace que un rectángulo dibujado sea una redacción terrible.
Por qué fallan las superposiciones de caja negra
Cuando "redactas" dibujando un rectángulo negro relleno en una herramienta de anotación y exportas, el PDF resultante contiene dos cosas en esa región:
- Los objetos de texto originales, intactos en el flujo de contenido
- Una nueva anotación de rectángulo negro superpuesta encima
Abre el PDF exportado en cualquier visor y tres cosas se desmoronan inmediatamente:
- Selecciona a través de la región "redactada". La capa de texto sigue ahí. El visor la selecciona. Copia, pega en un editor de texto, y el contenido "redactado" es visible.
- Busca una palabra que redactaste. Muchos visores la encontrarán sin problemas, resaltarán su posición (que casualmente queda bajo tu caja negra) y te dirán cuántas coincidencias halló.
- Elimina la anotación. Algunos visores exponen las anotaciones en un panel lateral, donde un usuario final puede hacer clic en el rectángulo y eliminarlo — revelando el texto original.
Incluso si un visor en particular no expone estas capacidades, el flujo de contenido es trivialmente legible con cualquiera de varias herramientas open-source de inspección de PDF. Los datos están en el archivo. Una caja negra encima de los datos no es redacción; es papel pintado.
La rasterización (convertir el PDF en una imagen plana) a veces se propone como solución. Funciona — no queda capa de texto que recuperar — pero destruye la capa de texto de toda la página, no solo de la región redactada. Pierdes la capacidad de búsqueda, selección y accesibilidad de todo el documento para proteger un único campo. Es la opción nuclear, y crea sus propios problemas.
Qué hace la redacción real
La redacción real opera sobre el flujo de contenido del PDF, no encima de él. Específicamente:
- Los objetos de texto en la región redactada se eliminan del flujo de contenido, no solo se ocultan.
- Cualquier imagen o gráfico vectorial que intersecte la región redactada se recorta o reemplaza para que los píxeles subyacentes no sean recuperables.
- La región se rellena típicamente con un color sólido (blanco o negro) en el propio flujo de contenido, no como una anotación encima.
- Las anotaciones que se solapan con la región redactada se eliminan, ya que pueden contener ellas mismas el contenido sensible.
La prueba definitiva: tras la redacción, no hay nada que recuperar. Seleccionar la región devuelve vacío. La búsqueda de texto no coincide. Extraer el flujo de contenido no revela rastro alguno del original. Eliminar anotaciones no cambia nada, porque los datos sensibles nunca se almacenaron como anotación.
Esto es lo que hace la redacción con whiteout de RedaktPDF. En lugar de pintar sobre el contenido, retira los objetos de texto e imagen subyacentes del flujo de contenido del PDF antes de exportar. La salida es un archivo limpio que no puede revertirse, sin rasterizar el resto de la página.
Cómo distinguir la diferencia desde fuera
No necesitas confiar en el marketing de una herramienta. Tres pruebas te dirán si un PDF redactado lo está realmente.
Prueba 1 — Copiar y pegar. Abre el PDF redactado en un visor estándar. Haz clic y arrastra sobre la región redactada. Pega en un editor de texto plano. Si obtienes texto, la redacción falló.
Prueba 2 — Búsqueda de texto. Busca una palabra que sepas que estaba en el contenido redactado. Si el visor la encuentra — aunque la coincidencia esté dibujada bajo una caja negra — los datos siguen en el archivo.
Prueba 3 — Inspecciona el flujo de contenido. Abre el archivo con un inspector de PDF (pdftotext de Poppler, o cualquiera de varias herramientas GUI). Vuelca el contenido de texto de la página. La cadena redactada debe estar ausente.
Cualquier redacción que pase las tres pruebas es aceptable para la mayoría de flujos de cumplimiento. Cualquiera que falle aunque sea una de ellas, desde la perspectiva de protección de datos, no es una redacción en absoluto.
La conclusión práctica
Si la herramienta que usas trata la redacción como una anotación — algo que dibujas encima de una página — asume que todo lo que alguna vez has "redactado" con ella sigue en el archivo original. Vuelve, redacta de nuevo usando una herramienta que opere sobre el flujo de contenido y verifica con el procedimiento de las tres pruebas anteriores.
Para un ejemplo funcional, sube un PDF de muestra al redactor de RedaktPDF, aplica whiteout a una región, exporta y haz la prueba de copiar y pegar. Verás la diferencia inmediatamente. Para el flujo más amplio — especialmente en contextos de GDPR, HIPAA y descubrimiento legal — consulta cómo redactar un PDF para cumplir con GDPR y cómo redactar información sensible de un PDF.
¿Listo para probar RedaktPDF?
Edita, redacta y anota PDF directamente en tu navegador — gratis y cifrado.
EmpezarHerramientas relacionadas
Redakt PDF
Redact PDFs online free. Cover sensitive text or images with flattened whiteout areas, then export a clean PDF. Private, browser-based, no sign-up.
PDF Whiteout
Cover text or images in a PDF with whiteout boxes online free. Choose any fill color for redaction or correction. Files deleted after 2 hours. No sign-up.