आपने एक PDF खोली, एक वाक्य हाइलाइट करने की कोशिश की, और कुछ नहीं हुआ — आपका कर्सर पेज पर ऐसे फिसल जाता है जैसे यह फ़ोटो हो। वो इसलिए क्योंकि यह है ही फ़ोटो। पेज एक इमेज है, टेक्स्ट नहीं। इसे एडिट और सर्च करने योग्य बनाने के लिए, आपको OCR चाहिए।
TL;DR
OCR (Optical Character Recognition / ऑप्टिकल कैरेक्टर रिकग्निशन) पेज की तस्वीर पढ़ता है और पता लगाता है कि उसमें कौन से अक्षर और शब्द हैं, फिर इमेज के पीछे एक अदृश्य टेक्स्ट लेयर जोड़ देता है। OCR के बाद, आप कंटेंट को किसी सामान्य PDF की तरह सेलेक्ट, कॉपी, सर्च, और एडिट कर सकते हैं।
RedaktPDF में, Extract text (OCR) बटन तब दिखाई देता है जब किसी पेज पर सिलेक्ट करने योग्य टेक्स्ट नहीं होता। एक क्लिक, और पेज एडिट करने योग्य बन जाता है।
कुछ PDF में टेक्स्ट क्यों नहीं होता
PDF दो बहुत अलग स्रोतों से आते हैं, और यही अंतर बनाता है।
Native PDFs सॉफ़्टवेयर द्वारा जनरेट होती हैं — Word, Google Docs, प्रिंट-टू-PDF डायलॉग, डिज़ाइन टूल से एक्सपोर्ट। टेक्स्ट वास्तविक अक्षरों के रूप में स्टोर होता है, इसलिए आपका कंप्यूटर जानता है कि पेज पर वह आकृति "A" अक्षर है। आप उसे हाइलाइट कर सकते हैं, सर्च कर सकते हैं, कॉपी कर सकते हैं।
Scanned PDFs तस्वीरें होती हैं। एक स्कैनर, फ़ोन कैमरा, या फ़ैक्स मशीन पेज को इमेज के रूप में कैप्चर करती है और उसे PDF कंटेनर में लपेट देती है। आपके कंप्यूटर के लिए, पेज बस पिक्सेल हैं। यहाँ कोई "A" नहीं है — यहाँ A के लगभग आकार में गहरे पिक्सेल का धब्बा है। OCR के बिना, डॉक्यूमेंट अनिवार्य रूप से एक फ़ोटो एल्बम है।
वही चीज़ तब होती है जब कोई व्यक्ति डॉक्यूमेंट का स्क्रीनशॉट लेता है, उसे PDF में डालता है, या पुराना कागज़ी कॉन्ट्रैक्ट स्कैन करता है। दृष्टि से यह सामान्य पेज जैसा दिखता है, लेकिन यांत्रिक रूप से यह एक दीवार है।
OCR कैसे काम करता है
ऑप्टिकल कैरेक्टर रिकग्निशन इमेज के पिक्सेल को देखकर यह तय करने की प्रक्रिया है कि वे कौन से अक्षरों का प्रतिनिधित्व करते हैं। आधुनिक OCR इंजन यह लगभग तीन चरणों में करते हैं:
- प्रीप्रोसेसिंग। इमेज को साफ़ करें — टेढ़े स्कैन सीधे करें, कंट्रास्ट बढ़ाएँ, शोर हटाएँ — ताकि टेक्स्ट जितना संभव हो उतना स्पष्ट हो।
- सेगमेंटेशन। ढूँढें कि टेक्स्ट कहाँ है। इंजन टेक्स्ट के ब्लॉक की पहचान करता है, फिर हर ब्लॉक के अंदर पंक्तियाँ, फिर व्यक्तिगत अक्षर या शब्द आकृतियाँ।
- रिकग्निशन। हर आकृति को एक अक्षर से मिलाएँ। पुराना OCR हाथ से बनाए नियमों का उपयोग करता था; आधुनिक इंजन प्रशिक्षित न्यूरल नेटवर्क का उपयोग करते हैं जिन्होंने दर्जनों फ़ॉन्ट्स में हर अक्षर के लाखों उदाहरण देखे हैं।
आउटपुट पहचाने गए शब्दों की एक सूची है जिसमें पेज पर उनकी स्थिति शामिल है। उस सूची को इमेज के साथ संरेखित अदृश्य टेक्स्ट लेयर के रूप में स्टोर किया जाता है, ताकि पेज समान दिखे, लेकिन अब आपका PDF रीडर शब्द ढूँढ़ सकता है, आपका एडिटर उन्हें बदल सकता है, और आपके एक्सेसिबिलिटी टूल उन्हें ज़ोर से पढ़ सकते हैं।
OCR सही नहीं है — निम्न-गुणवत्ता वाले स्कैन, असामान्य फ़ॉन्ट्स, और हस्तलेखन सभी इसे उलझा सकते हैं — लेकिन अधिकांश प्रिंटेड डॉक्यूमेंट्स के लिए सटीकता इतनी अधिक है कि परिणाम native PDF से अप्रभेद्य महसूस होता है।
आपको OCR की कब ज़रूरत होती है
आपको OCR की ज़रूरत किसी भी समय होती है जब PDF डॉक्यूमेंट के बजाय इमेज की तरह व्यवहार करती है। सबसे स्पष्ट संकेत:
- आप अपने कर्सर से टेक्स्ट सेलेक्ट नहीं कर सकते।
- पेज पर स्पष्ट रूप से दिखाई देने वाले शब्द को सर्च करने पर कोई परिणाम नहीं मिलता।
- स्क्रीन रीडर कंटेंट को छोड़ देता है।
- आपका PDF एडिटर आपको टेक्स्ट एडिट नहीं करने देता।
अगर इनमें से कुछ भी सच है, तो पेज में टेक्स्ट लेयर नहीं है, और OCR वह जोड़ने के लिए है।
RedaktPDF OCR कैसे चलाता है
जब आप RedaktPDF पर PDF अपलोड करते हैं, तो यह मौजूदा टेक्स्ट लेयर के लिए हर पेज को स्कैन करता है। अगर किसी पेज में कोई नहीं है — या इतना कम टेक्स्ट है कि हमें संदेह है कि यह स्कैन है — तो उस पेज के ऊपर एक एम्बर बैनर Extract text (OCR) बटन के साथ दिखाई देता है।
इसे क्लिक करें, और OCR आपके ब्राउज़र में चलता है। पेज इमेज स्थानीय रूप से Tesseract.js का उपयोग करके प्रोसेस होती है, जो एक ओपन-सोर्स OCR इंजन है। OCR चरण के लिए सर्वर पर इमेज भेजने की कोई ज़रूरत नहीं होती, जो कंटेंट को निजी रखता है — वही सिद्धांत जो RedaktPDF के प्राइवेसी मॉडल में बाक़ी सब चीज़ों के पीछे है।
OCR ख़त्म होने के बाद, पेज को एक नई टेक्स्ट लेयर मिल जाती है। आप तुरंत:
- अपने कर्सर से टेक्स्ट सेलेक्ट और कॉपी कर सकते हैं।
- डॉक्यूमेंट को Ctrl/Cmd-F से सर्च कर सकते हैं।
- पहचाने गए टेक्स्ट को टेक्स्ट टूल का उपयोग करके एडिट कर सकते हैं।
- विशिष्ट शब्दों को रिडैक्शन टूल का उपयोग करके रिडैक्ट कर सकते हैं।
OCR Pro और Business फ़ीचर है क्योंकि यह कंप्यूट के लिहाज़ से भारी है और हम चाहते हैं कि एडिटर मुफ़्त टियर पर सभी के लिए तेज़ बना रहे। अगर आपके पास बहुत सारे स्कैन किए हुए डॉक्यूमेंट्स पर काम करना है, तो यह जल्दी ही अपनी क़ीमत वसूल कर लेता है।
ध्यान रखने योग्य सीमाएँ
कुछ बातें ध्यान में रखने योग्य हैं:
- जैसा इनपुट, वैसा आउटपुट। एक स्पष्ट 300-DPI स्कैन लगभग पूरी तरह से पहचाना जाता है। एक धुंधली, मुड़ी-तुड़ी रसीद की फ़ोन फ़ोटो ग़लतियाँ उत्पन्न करेगी।
- भाषा मायने रखती है। RedaktPDF का OCR वर्तमान में लैटिन-वर्णमाला भाषाओं पर सबसे अच्छा काम करता है। दाएँ-से-बाएँ स्क्रिप्ट और चीनी या अरबी जैसे जटिल कैरेक्टर सेट अभी सपोर्टेड नहीं हैं।
- हस्तलेखन कठिन है। OCR प्रिंटेड टेक्स्ट के लिए डिज़ाइन किया गया है। हस्तलेखन पहचान मौजूद है लेकिन यह एक अलग तकनीक है और मानक OCR का हिस्सा नहीं है।
- लेआउट शिफ़्ट हो सकता है। OCR टेक्स्ट लेयर को इमेज के पीछे रखता है, लेकिन यह पैराग्राफ़ को रीफ्लो नहीं करता। टेबल और मल्टी-कॉलम लेआउट टेक्स्ट के रूप में पहचाने जाते हैं लेकिन अपनी मूल स्थिति में रखे जाते हैं।
अगर रिकग्निशन क्वालिटी सुविधा से अधिक मायने रखती है, तो आप जो सबसे अच्छी चीज़ कर सकते हैं वह है हाई-रिज़ॉल्यूशन स्कैन से शुरू करना। डाउनस्ट्रीम में सब कुछ — एडिटिंग, सर्चिंग, रिडैक्टिंग — उतना ही सटीक है जितना उसे फ़ीड करने वाला OCR पास।
इसे आज़माएँ
RedaktPDF पर एक स्कैन की हुई PDF अपलोड करें, इसे एडिटर में खोलें, और सिलेक्ट करने योग्य टेक्स्ट के बिना किसी भी पेज के ऊपर Extract text (OCR) बैनर देखें। पिक्सेल की दीवार को असली, कार्यशील डॉक्यूमेंट में बदलने के लिए बस एक क्लिक काफ़ी है।
RedaktPDF आज़माने के लिए तैयार हैं?
अपने ब्राउज़र में सीधे PDF संपादित करें, रिडैक्ट करें और एनोटेट करें — मुफ़्त और एन्क्रिप्टेड।
शुरू करें