PDF रिडैक्शन बनाम ब्लैक-बॉक्स ओवरले: अंतर क्यों मायने रखता है
लगभग किसी भी ऑनलाइन PDF टूल को खोलें, एनोटेशन टूलबार ढूँढ़ें, सोशल सिक्योरिटी नंबर पर काला आयत खींचें, और एक्सपोर्ट करें। पेज रिडैक्ट किया हुआ दिखता है। नंबर अब दिखाई नहीं देता। फ़ाइल को स्क्रॉल करने वाले किसी भी व्यक्ति के लिए, काम पूरा है।
यह नहीं है। मूल टेक्स्ट अभी भी PDF के अंदर बैठा है। कॉपी-पेस्ट, टेक्स्ट सर्च, या फ़ाइल को सक्षम व्यूअर में खोलना अक्सर इसे वापस खींच लेगा। ऐसी घटनाएँ जहाँ ठीक यही हुआ — सरकारी एजेंसियों, क़ानूनी फ़र्मों, और Fortune 500 कंपनियों के साथ — कानूनी और प्रेस रिपोर्टों की एक छोटी लाइब्रेरी भरती हैं।
यह पोस्ट इस बात का तकनीकी अवलोकन है कि ब्लैक-बॉक्स ओवरले रिडैक्शन (संवेदनशील जानकारी का स्थायी रूप से हटाना) क्यों नहीं है, PDF फ़ाइल के अंदर असली रिडैक्शन कैसी दिखती है, और बाहर से अंतर कैसे बताया जाए।
PDF कंटेंट कैसे स्टोर करते हैं
PDF पेज की इमेज नहीं है। यह एक संरचित फ़ाइल है जो पेज को ऑब्जेक्ट्स की एक श्रृंखला के रूप में वर्णित करती है: टेक्स्ट रन, फ़ॉन्ट, इमेज, वेक्टर पथ, और एनोटेशन। एक PDF व्यूअर इस विवरण को लेता है और उससे एक दृश्य पेज रेंडर करता है, लेकिन अंतर्निहित ऑब्जेक्ट्स फ़ाइल में पता-योग्य रहते हैं।
ठोस रूप से, PDF में टेक्स्ट का एक टुकड़ा आमतौर पर विशिष्ट निर्देशांकों पर रखे गए कैरेक्टर कोड की श्रृंखला के रूप में स्टोर होता है, एक फ़ॉन्ट के संदर्भ के साथ। जब आप PDF व्यूअर में माउस से सिलेक्शन बॉक्स खींचते हैं, तो आप दृश्य रेंडरिंग के विरुद्ध नहीं, बल्कि इस टेक्स्ट लेयर के विरुद्ध सेलेक्ट कर रहे होते हैं। यही कारण है कि कॉपी-पेस्ट काम करता है; यही कारण है कि PDF के अंदर टेक्स्ट सर्च ऐसे परिणाम लौटाता है जो खुली आँखों से पेज पर नज़र भी न आते हों।
एनोटेशन — हाइलाइट्स, स्टिकी नोट्स, खींची हुई आकृतियाँ, और हाँ, अधिकांश "रिडैक्शन" टूल्स द्वारा उपयोग किए जाने वाले आयत — ऑब्जेक्ट की एक अलग श्रेणी हैं। वे पेज की कंटेंट स्ट्रीम के ऊपर, उच्च z-इंडेक्स पर बैठते हैं। वे नीचे के कंटेंट को संशोधित, हटाते, या प्रतिस्थापित नहीं करते।
यह आर्किटेक्चरल पृथक्करण उपयोगी है: यह आपको मूल डॉक्यूमेंट को छुए बिना कमेंट जोड़ने और हटाने देता है। यह बिल्कुल वही है जो खींचे हुए आयत को एक भयानक रिडैक्शन बनाता है।
ब्लैक-बॉक्स ओवरले क्यों विफल होते हैं
जब आप एनोटेशन टूल में काला भरा हुआ आयत खींचकर और एक्सपोर्ट करके "रिडैक्ट" करते हैं, तो परिणामी PDF में उस क्षेत्र में दो चीज़ें होती हैं:
- मूल टेक्स्ट ऑब्जेक्ट्स, कंटेंट स्ट्रीम में अछूते
- उनके ऊपर एक नया काला आयत एनोटेशन परत किया हुआ
एक्सपोर्ट की हुई PDF को किसी भी व्यूअर में खोलें और तीन चीज़ें तुरंत टूट जाती हैं:
- "रिडैक्ट" किए क्षेत्र पर सिलेक्ट करें। टेक्स्ट लेयर अभी भी वहाँ है। व्यूअर इसे सेलेक्ट करता है। कॉपी करें, टेक्स्ट एडिटर में पेस्ट करें, और "रिडैक्ट" किया कंटेंट दिखाई देता है।
- रिडैक्ट किए शब्द के लिए टेक्स्ट सर्च चलाएँ। कई व्यूअर ख़ुशी से उसे पाएँगे, उसकी स्थिति (जो आपके काले बॉक्स के नीचे है) को हाइलाइट करेंगे, और आपको बताएँगे कि कितने मिलान मिले।
- एनोटेशन डिलीट करें। कुछ व्यूअर साइड पैनल में एनोटेशन दिखाते हैं, जहाँ एंड यूज़र आयत पर क्लिक करके उसे डिलीट कर सकता है — मूल टेक्स्ट प्रकट करते हुए।
यहाँ तक कि अगर कोई विशेष व्यूअर इन क्षमताओं को सामने नहीं लाता, तो कई ओपन-सोर्स PDF इंस्पेक्शन टूल्स में से किसी से भी कंटेंट स्ट्रीम मामूली रूप से पठनीय है। डेटा फ़ाइल में है। डेटा के ऊपर काला बॉक्स रिडैक्शन नहीं है; यह वॉलपेपर है।
रास्टराइज़ेशन (PDF को सपाट इमेज में बदलना) कभी-कभी सुधार के रूप में प्रस्तावित किया जाता है। यह काम करता है — रिकवर करने के लिए कोई टेक्स्ट लेयर नहीं बची — लेकिन यह केवल रिडैक्ट किए क्षेत्र के लिए नहीं, बल्कि पूरे पेज के लिए टेक्स्ट लेयर को नष्ट कर देता है। आप एक फ़ील्ड की सुरक्षा के लिए पूरे डॉक्यूमेंट के लिए खोज क्षमता, चयन क्षमता, और एक्सेसिबिलिटी खो देते हैं। यह न्यूक्लियर विकल्प है, और यह अपनी समस्याएँ पैदा करता है।
असली रिडैक्शन क्या करती है
असली रिडैक्शन PDF की कंटेंट स्ट्रीम पर काम करती है, उसके ऊपर नहीं। विशेष रूप से:
- रिडैक्ट किए क्षेत्र में टेक्स्ट ऑब्जेक्ट्स को कंटेंट स्ट्रीम से हटाया जाता है, केवल छिपाया नहीं जाता।
- रिडैक्ट किए क्षेत्र को काटने वाली कोई भी इमेज या वेक्टर ग्राफ़िक्स को क्रॉप या प्रतिस्थापित किया जाता है ताकि अंतर्निहित पिक्सेल रिकवर न हो सकें।
- क्षेत्र को आमतौर पर कंटेंट स्ट्रीम में ही ठोस रंग (सफ़ेद या काला) से भरा जाता है, ऊपर एनोटेशन के रूप में नहीं।
- रिडैक्ट किए क्षेत्र को ओवरलैप करने वाले एनोटेशन हटा दिए जाते हैं, क्योंकि उनमें स्वयं संवेदनशील कंटेंट हो सकता है।
परिभाषित परीक्षण: रिडैक्शन के बाद, रिकवर करने के लिए कुछ नहीं है। क्षेत्र को सेलेक्ट करना ख़ाली लौटाता है। टेक्स्ट सर्च मिलान नहीं करता। कंटेंट स्ट्रीम एक्सट्रैक्ट करने से मूल का कोई निशान नहीं मिलता। एनोटेशन डिलीट करने से कुछ नहीं बदलता, क्योंकि संवेदनशील डेटा कभी एनोटेशन के रूप में स्टोर नहीं किया गया था।
यही RedaktPDF का व्हाइटआउट रिडैक्शन करता है। कंटेंट के ऊपर पेंट करने के बजाय, यह एक्सपोर्ट से पहले PDF कंटेंट स्ट्रीम से अंतर्निहित टेक्स्ट और इमेज ऑब्जेक्ट्स को हटा देता है। आउटपुट एक साफ़ फ़ाइल है जिसे शेष पेज को रास्टराइज़ किए बिना उलटा नहीं जा सकता।
बाहर से अंतर कैसे बताएँ
आपको टूल की मार्केटिंग पर भरोसा करने की ज़रूरत नहीं है। तीन परीक्षण आपको बताएँगे कि क्या रिडैक्ट की हुई PDF वास्तव में रिडैक्ट हुई है।
परीक्षण 1 — कॉपी-पेस्ट। रिडैक्ट की हुई PDF को मानक व्यूअर में खोलें। रिडैक्ट किए क्षेत्र पर क्लिक करें और ड्रैग करें। प्लेन टेक्स्ट एडिटर में पेस्ट करें। अगर आपको टेक्स्ट मिले, तो रिडैक्शन विफल हुई।
परीक्षण 2 — टेक्स्ट सर्च। कोई ऐसा शब्द सर्च करें जो आप जानते हैं कि रिडैक्ट किए कंटेंट में था। अगर व्यूअर इसे ढूँढ़े — भले ही मिलान काले बॉक्स के नीचे खींचा गया हो — तो डेटा अभी भी फ़ाइल में है।
परीक्षण 3 — कंटेंट स्ट्रीम का निरीक्षण करें। फ़ाइल को PDF इंस्पेक्टर (pdftotext Poppler से, या कई GUI टूल्स में से कोई) से खोलें। पेज के लिए टेक्स्ट कंटेंट डंप करें। रिडैक्ट की हुई स्ट्रिंग अनुपस्थित होनी चाहिए।
जो भी रिडैक्शन तीनों परीक्षण पास करती है, वह अधिकांश अनुपालन वर्कफ़्लो के लिए स्वीकार्य है। कुछ भी जो उनमें से एक में भी विफल होता है, डेटा-सुरक्षा के दृष्टिकोण से, बिल्कुल भी रिडैक्शन नहीं है।
व्यावहारिक निष्कर्ष
अगर आप जो टूल उपयोग करते हैं वह रिडैक्शन को एनोटेशन के रूप में मानता है — कुछ ऐसा जिसे आप पेज के ऊपर खींचते हैं — तो मान लें कि आपने इसके साथ कभी भी जो "रिडैक्ट" किया है वह अभी भी मूल फ़ाइल में है। वापस जाएँ, ऐसे टूल का उपयोग करके फिर से रिडैक्ट करें जो कंटेंट स्ट्रीम पर काम करता है, और ऊपर की तीन-परीक्षण प्रक्रिया से सत्यापित करें।
एक कार्यशील उदाहरण के लिए, RedaktPDF रिडैक्टर पर एक नमूना PDF अपलोड करें, एक क्षेत्र व्हाइटआउट करें, एक्सपोर्ट करें, और कॉपी-पेस्ट परीक्षण चलाएँ। आपको तुरंत अंतर दिखाई देगा। व्यापक वर्कफ़्लो के लिए — विशेष रूप से GDPR, HIPAA, और कानूनी-डिस्कवरी संदर्भों में — देखें GDPR अनुपालन के लिए PDF को कैसे रिडैक्ट करें और PDF से संवेदनशील जानकारी कैसे रिडैक्ट करें।
RedaktPDF आज़माने के लिए तैयार हैं?
अपने ब्राउज़र में सीधे PDF संपादित करें, रिडैक्ट करें और एनोटेट करें — मुफ़्त और एन्क्रिप्टेड।
शुरू करेंसंबंधित टूल्स
Redakt PDF
Redact PDFs online free. Cover sensitive text or images with flattened whiteout areas, then export a clean PDF. Private, browser-based, no sign-up.
PDF Whiteout
Cover text or images in a PDF with whiteout boxes online free. Choose any fill color for redaction or correction. Files deleted after 2 hours. No sign-up.