मान लीजिए कि आपके पास एक पीडीएफ है जो एक स्कैनर का उपयोग करके बनाया गया था, या यह आपको दिया गया था लेकिन इसमें एक छवि के रूप में जानकारी शामिल है. वह प्रक्रिया जिसमें हमें अपनी प्रिय पीडीएफ जमा करनी होती है, कहलाती है ओसीआर: एक प्रक्रिया जो स्वचालित रूप से एक छवि से एक निश्चित वर्णमाला से संबंधित प्रतीकों या वर्णों की पहचान करती है, इसे डेटा के रूप में संग्रहीत करती है जिसके साथ हम टेक्स्ट संपादन प्रोग्राम या इसी तरह के माध्यम से बातचीत कर सकते हैं। |
पीडीएफओसीआर एक सरल उपकरण है जो एक एम्बेडेड टेक्स्ट परत के साथ एक नया पीडीएफ बनाता है, जो उपयोगकर्ता को पीडीएफ के अंतिम स्वरूप को बदले बिना, टेक्स्ट का चयन करने और उसमें शब्दों को खोजने की अनुमति देता है।
पीडीएफओसीआर किसके लिए नहीं है:
यह केवल तभी काम करता है जब पीडीएफ में छवि के रूप में जानकारी शामिल हो; यदि आपने ओपनऑफिस से पीडीएफ निर्यात किया है, तो इसमें पहले से ही एक एम्बेडेड टेक्स्ट परत है, इसलिए यह प्रक्रिया अनावश्यक है।
पीडीएफओसीआर कैसे स्थापित करें:
sudo add-apt-repository ppa:gezakovacs/pdfocr
उपयुक्त sudo- मिल अद्यतन
sudo apt-get install pdfocr
पीडीएफओसीआर का उपयोग कैसे करें:
एक टर्मिनल खोलें, उस निर्देशिका पर जाएं जहां जिस पीडीएफ को आप कनवर्ट करना चाहते हैं वह स्थित है, और निम्नलिखित दर्ज करें (जिस पीडीएफ को आप कनवर्ट करना चाहते हैं उसके साथ इनपुट.पीडीएफ की जगह और एम्बेडेड टेक्स्ट परत के साथ नई फ़ाइल के नाम के साथ आउटपुट.पीडीएफ)
पीडीएफओसीआर -आई इनपुट.पीडीएफ -ओ आउटपुट.पीडीएफ
अपने पीडीएफ के प्रत्येक पृष्ठ पर ओसीआर निष्पादित होने और अंतिम संशोधित फ़ाइल बनने तक प्रतीक्षा करें। आपके पीडीएफ के रिज़ॉल्यूशन के आधार पर इसमें प्रति पृष्ठ कुछ सेकंड लगने चाहिए।
robolfo@rodolfo-desktop:~$ sudo apt-get install pdfocr
पैकेज सूची पढ़ना ... पूरा किया
निर्भरता का पेड़ बनाना
स्टेटस की जानकारी पढ़कर ... हो गया
ई: पैकेज पीडीएफओसीआर का पता नहीं लगाया जा सका
robolfo@rodolfo-desktop:~$
क्या आपने संबंधित पीपीए जोड़ना सुनिश्चित किया?
इस पीपीए में संभवतः पुराने उबंटू संस्करणों के लिए पीडीएफओसीआर के संस्करण हैं। सोचिए कि यह पोस्ट पहले से ही कई महीने पुरानी है। वैसे भी विचार तो वही है. लॉन्चपैड पर जाएं और एक पीपीए खोजें जिसमें मेवरिक के लिए पीडीएफओसीआर के संस्करण हों।
चियर्स! पॉल।
ख़ैर, यह कैसे काम करता है यह देखने की बात होगी
आगे बढ़ो! यदि आप सफल हुए तो हमें बताएं!! यदि यह काम नहीं करता है तो हम आपकी मदद करने का भी प्रयास कर सकते हैं! अभिवादन! पाब्लो.
नमस्कार,
मैंने पीडीएफ़ पर प्रोग्राम का परीक्षण किया है और परिणाम बहुत अच्छा नहीं है। मैं पेशेवर एक्रोबैट 8 का आदी हूँ और मैं कुछ इसी तरह की चीज़ की तलाश में था। स्कैन की गई पीडीएफ़ को साफ करने और सीधा करने के लिए एक्रोबैट फ़ाइल उपयोगिताओं को पास करता है और इस प्रकार ओसीआर के लिए एक बेहतर फ़ॉन्ट प्राप्त करता है। क्या आप जानते हैं कि इसका कोई समाधान है?
एक ग्रीटिंग
नमस्ते! मैंने सुना है कि Tesseract सबसे अच्छा ओपनसोर्स OCR है। मुझे नहीं पता कि यह अच्छा होगा या नहीं. साथ ही, इसे काम करने के लिए आपको अपने हाथों को थोड़ा गंदा करना होगा। यहां कुछ निर्देश दिए गए हैं. यदि आप सफल हैं, तो कृपया मुझे बताएं, यदि यह काम करता है, तो संभवतः यह एक पोस्ट बन जाएगा।
सबसे पहले Synaptic, "xsane2.03tess" का उपयोग करके "http://download.tuxfamily.org/guadausers/guadaV4/" से पैकेज "tesseract 2-4" और "imagemagick" इंस्टॉल करें।
फिर इसमें tmp फ़ोल्डर बनाएं: /home/yourusername/tmp
फिर इसे कॉन्फ़िगर करने के लिए Xsane खोलें, प्राथमिकताएं-> सेटिंग्स-> OCR टैब और निम्नलिखित भरें:
OCR कमांड -> xsane2tess -l spa
इनपुट फ़ाइल विकल्प -> -i
आउटपुट फ़ाइल विकल्प -> -o
इंटरफ़ेस एफडी-आउट विकल्प -> -x
Xsane सेटिंग्स में "सेव" टैब में उस हिस्से में जहां अस्थायी निर्देशिका कहा गया है, सुनिश्चित करें कि आपके द्वारा "/home/yourusername" में बनाया गया "tmp" फ़ोल्डर मौजूद है।
मैं आपके लिए एक पेज भी छोड़ता हूं जिसमें यह बताया गया है कि यह उबंटू में ओसीआर कैसे करता है: https://help.ubuntu.com/community/OCR
एक अन्य विधि जो मैंने वहां खोजी वह निम्नलिखित है:
यह मानते हुए कि स्कैनर पहले से ही कनेक्ट था और सिस्टम द्वारा पहचाना गया था
1. ओपन सिस्टम> एडमिनिस्ट्रेशन> सिनैप्टिक पैकेज मैनेजर (गनोम में)
2. मैं tesseract-ocr-spa (स्पेनिश में स्कैन करने के लिए) और gscan2pdf इंस्टॉल करने के लिए खोजता हूं और फ्रेम करता हूं
3. स्कैन करने के लिए एप्लिकेशन>ग्राफिक्स>gscan2pdf खोलें
और तैयार।
अरे मित्र, आपका बहुत-बहुत धन्यवाद, सच तो यह है कि टेसेरैक्ट एक अच्छा उपकरण है, लेकिन "समस्याग्रस्त" स्कैनिंग वाली पुस्तकों की तुलना में बहुत सीमित है। दूसरी ओर, यह सॉफ़्टवेयर अधिक आसानी से अनुकूलित हो जाता है... 😀
छवि डिजिटलीकरण प्रक्रिया में, पीडीएफ-ए फाइलें परिवर्तित की जा रही हैं, उन्हें ओसीआर किया जाना चाहिए। ब्लैक एंड व्हाइट या ग्रेस्केल में डिजिटलीकरण परिणाम के प्रति कितना संवेदनशील है? क्या अनुशंसित है?