← ब्लॉग पर वापस जाएँ

PDF रिडैक्शन बनाम ब्लैक-बॉक्स ओवरले: अंतर क्यों मायने रखता है

Jury D'Ambros··6 मिनट का पठन

लगभग किसी भी ऑनलाइन PDF टूल को खोलें, एनोटेशन टूलबार ढूँढ़ें, सोशल सिक्योरिटी नंबर पर काला आयत खींचें, और एक्सपोर्ट करें। पेज रिडैक्ट किया हुआ दिखता है। नंबर अब दिखाई नहीं देता। फ़ाइल को स्क्रॉल करने वाले किसी भी व्यक्ति के लिए, काम पूरा है।

यह नहीं है। मूल टेक्स्ट अभी भी PDF के अंदर बैठा है। कॉपी-पेस्ट, टेक्स्ट सर्च, या फ़ाइल को सक्षम व्यूअर में खोलना अक्सर इसे वापस खींच लेगा। ऐसी घटनाएँ जहाँ ठीक यही हुआ — सरकारी एजेंसियों, क़ानूनी फ़र्मों, और Fortune 500 कंपनियों के साथ — कानूनी और प्रेस रिपोर्टों की एक छोटी लाइब्रेरी भरती हैं।

यह पोस्ट इस बात का तकनीकी अवलोकन है कि ब्लैक-बॉक्स ओवरले रिडैक्शन (संवेदनशील जानकारी का स्थायी रूप से हटाना) क्यों नहीं है, PDF फ़ाइल के अंदर असली रिडैक्शन कैसी दिखती है, और बाहर से अंतर कैसे बताया जाए।

PDF कंटेंट कैसे स्टोर करते हैं

PDF पेज की इमेज नहीं है। यह एक संरचित फ़ाइल है जो पेज को ऑब्जेक्ट्स की एक श्रृंखला के रूप में वर्णित करती है: टेक्स्ट रन, फ़ॉन्ट, इमेज, वेक्टर पथ, और एनोटेशन। एक PDF व्यूअर इस विवरण को लेता है और उससे एक दृश्य पेज रेंडर करता है, लेकिन अंतर्निहित ऑब्जेक्ट्स फ़ाइल में पता-योग्य रहते हैं।

ठोस रूप से, PDF में टेक्स्ट का एक टुकड़ा आमतौर पर विशिष्ट निर्देशांकों पर रखे गए कैरेक्टर कोड की श्रृंखला के रूप में स्टोर होता है, एक फ़ॉन्ट के संदर्भ के साथ। जब आप PDF व्यूअर में माउस से सिलेक्शन बॉक्स खींचते हैं, तो आप दृश्य रेंडरिंग के विरुद्ध नहीं, बल्कि इस टेक्स्ट लेयर के विरुद्ध सेलेक्ट कर रहे होते हैं। यही कारण है कि कॉपी-पेस्ट काम करता है; यही कारण है कि PDF के अंदर टेक्स्ट सर्च ऐसे परिणाम लौटाता है जो खुली आँखों से पेज पर नज़र भी न आते हों।

एनोटेशन — हाइलाइट्स, स्टिकी नोट्स, खींची हुई आकृतियाँ, और हाँ, अधिकांश "रिडैक्शन" टूल्स द्वारा उपयोग किए जाने वाले आयत — ऑब्जेक्ट की एक अलग श्रेणी हैं। वे पेज की कंटेंट स्ट्रीम के ऊपर, उच्च z-इंडेक्स पर बैठते हैं। वे नीचे के कंटेंट को संशोधित, हटाते, या प्रतिस्थापित नहीं करते।

यह आर्किटेक्चरल पृथक्करण उपयोगी है: यह आपको मूल डॉक्यूमेंट को छुए बिना कमेंट जोड़ने और हटाने देता है। यह बिल्कुल वही है जो खींचे हुए आयत को एक भयानक रिडैक्शन बनाता है।

ब्लैक-बॉक्स ओवरले क्यों विफल होते हैं

जब आप एनोटेशन टूल में काला भरा हुआ आयत खींचकर और एक्सपोर्ट करके "रिडैक्ट" करते हैं, तो परिणामी PDF में उस क्षेत्र में दो चीज़ें होती हैं:

  1. मूल टेक्स्ट ऑब्जेक्ट्स, कंटेंट स्ट्रीम में अछूते
  2. उनके ऊपर एक नया काला आयत एनोटेशन परत किया हुआ

एक्सपोर्ट की हुई PDF को किसी भी व्यूअर में खोलें और तीन चीज़ें तुरंत टूट जाती हैं:

  • "रिडैक्ट" किए क्षेत्र पर सिलेक्ट करें। टेक्स्ट लेयर अभी भी वहाँ है। व्यूअर इसे सेलेक्ट करता है। कॉपी करें, टेक्स्ट एडिटर में पेस्ट करें, और "रिडैक्ट" किया कंटेंट दिखाई देता है।
  • रिडैक्ट किए शब्द के लिए टेक्स्ट सर्च चलाएँ। कई व्यूअर ख़ुशी से उसे पाएँगे, उसकी स्थिति (जो आपके काले बॉक्स के नीचे है) को हाइलाइट करेंगे, और आपको बताएँगे कि कितने मिलान मिले।
  • एनोटेशन डिलीट करें। कुछ व्यूअर साइड पैनल में एनोटेशन दिखाते हैं, जहाँ एंड यूज़र आयत पर क्लिक करके उसे डिलीट कर सकता है — मूल टेक्स्ट प्रकट करते हुए।

यहाँ तक कि अगर कोई विशेष व्यूअर इन क्षमताओं को सामने नहीं लाता, तो कई ओपन-सोर्स PDF इंस्पेक्शन टूल्स में से किसी से भी कंटेंट स्ट्रीम मामूली रूप से पठनीय है। डेटा फ़ाइल में है। डेटा के ऊपर काला बॉक्स रिडैक्शन नहीं है; यह वॉलपेपर है।

रास्टराइज़ेशन (PDF को सपाट इमेज में बदलना) कभी-कभी सुधार के रूप में प्रस्तावित किया जाता है। यह काम करता है — रिकवर करने के लिए कोई टेक्स्ट लेयर नहीं बची — लेकिन यह केवल रिडैक्ट किए क्षेत्र के लिए नहीं, बल्कि पूरे पेज के लिए टेक्स्ट लेयर को नष्ट कर देता है। आप एक फ़ील्ड की सुरक्षा के लिए पूरे डॉक्यूमेंट के लिए खोज क्षमता, चयन क्षमता, और एक्सेसिबिलिटी खो देते हैं। यह न्यूक्लियर विकल्प है, और यह अपनी समस्याएँ पैदा करता है।

असली रिडैक्शन क्या करती है

असली रिडैक्शन PDF की कंटेंट स्ट्रीम पर काम करती है, उसके ऊपर नहीं। विशेष रूप से:

  • रिडैक्ट किए क्षेत्र में टेक्स्ट ऑब्जेक्ट्स को कंटेंट स्ट्रीम से हटाया जाता है, केवल छिपाया नहीं जाता।
  • रिडैक्ट किए क्षेत्र को काटने वाली कोई भी इमेज या वेक्टर ग्राफ़िक्स को क्रॉप या प्रतिस्थापित किया जाता है ताकि अंतर्निहित पिक्सेल रिकवर न हो सकें।
  • क्षेत्र को आमतौर पर कंटेंट स्ट्रीम में ही ठोस रंग (सफ़ेद या काला) से भरा जाता है, ऊपर एनोटेशन के रूप में नहीं।
  • रिडैक्ट किए क्षेत्र को ओवरलैप करने वाले एनोटेशन हटा दिए जाते हैं, क्योंकि उनमें स्वयं संवेदनशील कंटेंट हो सकता है।

परिभाषित परीक्षण: रिडैक्शन के बाद, रिकवर करने के लिए कुछ नहीं है। क्षेत्र को सेलेक्ट करना ख़ाली लौटाता है। टेक्स्ट सर्च मिलान नहीं करता। कंटेंट स्ट्रीम एक्सट्रैक्ट करने से मूल का कोई निशान नहीं मिलता। एनोटेशन डिलीट करने से कुछ नहीं बदलता, क्योंकि संवेदनशील डेटा कभी एनोटेशन के रूप में स्टोर नहीं किया गया था।

यही RedaktPDF का व्हाइटआउट रिडैक्शन करता है। कंटेंट के ऊपर पेंट करने के बजाय, यह एक्सपोर्ट से पहले PDF कंटेंट स्ट्रीम से अंतर्निहित टेक्स्ट और इमेज ऑब्जेक्ट्स को हटा देता है। आउटपुट एक साफ़ फ़ाइल है जिसे शेष पेज को रास्टराइज़ किए बिना उलटा नहीं जा सकता।

बाहर से अंतर कैसे बताएँ

आपको टूल की मार्केटिंग पर भरोसा करने की ज़रूरत नहीं है। तीन परीक्षण आपको बताएँगे कि क्या रिडैक्ट की हुई PDF वास्तव में रिडैक्ट हुई है।

परीक्षण 1 — कॉपी-पेस्ट। रिडैक्ट की हुई PDF को मानक व्यूअर में खोलें। रिडैक्ट किए क्षेत्र पर क्लिक करें और ड्रैग करें। प्लेन टेक्स्ट एडिटर में पेस्ट करें। अगर आपको टेक्स्ट मिले, तो रिडैक्शन विफल हुई।

परीक्षण 2 — टेक्स्ट सर्च। कोई ऐसा शब्द सर्च करें जो आप जानते हैं कि रिडैक्ट किए कंटेंट में था। अगर व्यूअर इसे ढूँढ़े — भले ही मिलान काले बॉक्स के नीचे खींचा गया हो — तो डेटा अभी भी फ़ाइल में है।

परीक्षण 3 — कंटेंट स्ट्रीम का निरीक्षण करें। फ़ाइल को PDF इंस्पेक्टर (pdftotext Poppler से, या कई GUI टूल्स में से कोई) से खोलें। पेज के लिए टेक्स्ट कंटेंट डंप करें। रिडैक्ट की हुई स्ट्रिंग अनुपस्थित होनी चाहिए।

जो भी रिडैक्शन तीनों परीक्षण पास करती है, वह अधिकांश अनुपालन वर्कफ़्लो के लिए स्वीकार्य है। कुछ भी जो उनमें से एक में भी विफल होता है, डेटा-सुरक्षा के दृष्टिकोण से, बिल्कुल भी रिडैक्शन नहीं है।

व्यावहारिक निष्कर्ष

अगर आप जो टूल उपयोग करते हैं वह रिडैक्शन को एनोटेशन के रूप में मानता है — कुछ ऐसा जिसे आप पेज के ऊपर खींचते हैं — तो मान लें कि आपने इसके साथ कभी भी जो "रिडैक्ट" किया है वह अभी भी मूल फ़ाइल में है। वापस जाएँ, ऐसे टूल का उपयोग करके फिर से रिडैक्ट करें जो कंटेंट स्ट्रीम पर काम करता है, और ऊपर की तीन-परीक्षण प्रक्रिया से सत्यापित करें।

एक कार्यशील उदाहरण के लिए, RedaktPDF रिडैक्टर पर एक नमूना PDF अपलोड करें, एक क्षेत्र व्हाइटआउट करें, एक्सपोर्ट करें, और कॉपी-पेस्ट परीक्षण चलाएँ। आपको तुरंत अंतर दिखाई देगा। व्यापक वर्कफ़्लो के लिए — विशेष रूप से GDPR, HIPAA, और कानूनी-डिस्कवरी संदर्भों में — देखें GDPR अनुपालन के लिए PDF को कैसे रिडैक्ट करें और PDF से संवेदनशील जानकारी कैसे रिडैक्ट करें

RedaktPDF आज़माने के लिए तैयार हैं?

अपने ब्राउज़र में सीधे PDF संपादित करें, रिडैक्ट करें और एनोटेट करें — मुफ़्त और एन्क्रिप्टेड।

शुरू करें

संबंधित टूल्स

संबंधित लेख