पीडीएफ में ओसीआर कैसे लागू करें और टेक्स्ट चयन और खोज सक्षम करें

1 मिनट

मान लीजिए कि आपके पास एक पीडीएफ है जो एक स्कैनर का उपयोग करके बनाया गया था, या यह आपको दिया गया था लेकिन इसमें एक छवि के रूप में जानकारी शामिल है. वह प्रक्रिया जिसमें हमें अपनी प्रिय पीडीएफ जमा करनी होती है, कहलाती है ओसीआर: एक प्रक्रिया जो स्वचालित रूप से एक छवि से एक निश्चित वर्णमाला से संबंधित प्रतीकों या वर्णों की पहचान करती है, इसे डेटा के रूप में संग्रहीत करती है जिसके साथ हम टेक्स्ट संपादन प्रोग्राम या इसी तरह के माध्यम से बातचीत कर सकते हैं।

पीडीएफओसीआर एक सरल उपकरण है जो एक एम्बेडेड टेक्स्ट परत के साथ एक नया पीडीएफ बनाता है, जो उपयोगकर्ता को पीडीएफ के अंतिम स्वरूप को बदले बिना, टेक्स्ट का चयन करने और उसमें शब्दों को खोजने की अनुमति देता है।

पीडीएफओसीआर किसके लिए नहीं है:

यह केवल तभी काम करता है जब पीडीएफ में छवि के रूप में जानकारी शामिल हो; यदि आपने ओपनऑफिस से पीडीएफ निर्यात किया है, तो इसमें पहले से ही एक एम्बेडेड टेक्स्ट परत है, इसलिए यह प्रक्रिया अनावश्यक है।

पीडीएफओसीआर कैसे स्थापित करें:

sudo add-apt-repository ppa:gezakovacs/pdfocr
उपयुक्त sudo- मिल अद्यतन
sudo apt-get install pdfocr

पीडीएफओसीआर का उपयोग कैसे करें:

एक टर्मिनल खोलें, उस निर्देशिका पर जाएं जहां जिस पीडीएफ को आप कनवर्ट करना चाहते हैं वह स्थित है, और निम्नलिखित दर्ज करें (जिस पीडीएफ को आप कनवर्ट करना चाहते हैं उसके साथ इनपुट.पीडीएफ की जगह और एम्बेडेड टेक्स्ट परत के साथ नई फ़ाइल के नाम के साथ आउटपुट.पीडीएफ)

पीडीएफओसीआर -आई इनपुट.पीडीएफ -ओ आउटपुट.पीडीएफ

अपने पीडीएफ के प्रत्येक पृष्ठ पर ओसीआर निष्पादित होने और अंतिम संशोधित फ़ाइल बनने तक प्रतीक्षा करें। आपके पीडीएफ के रिज़ॉल्यूशन के आधार पर इसमें प्रति पृष्ठ कुछ सेकंड लगने चाहिए।

अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

टिप्पणी *

नाम*

इलेक्ट्रॉनिक मेल*

मैं स्वीकारता हूँ गोपनीयता की शर्तें*

डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
वैधता: आपकी सहमति
डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।

मैं समाचार पत्र प्राप्त करना चाहता हूं

रोडोल्फो लारा कहा
पूर्व 11 साल

robolfo@rodolfo-desktop:~$ sudo apt-get install pdfocr
पैकेज सूची पढ़ना ... पूरा किया
निर्भरता का पेड़ बनाना
स्टेटस की जानकारी पढ़कर ... हो गया
ई: पैकेज पीडीएफओसीआर का पता नहीं लगाया जा सका
robolfo@rodolfo-desktop:~$

रोडोल्फो लारा को उत्तर दें
चलो लिनक्स का उपयोग करें कहा
पूर्व 11 साल

क्या आपने संबंधित पीपीए जोड़ना सुनिश्चित किया?
इस पीपीए में संभवतः पुराने उबंटू संस्करणों के लिए पीडीएफओसीआर के संस्करण हैं। सोचिए कि यह पोस्ट पहले से ही कई महीने पुरानी है। वैसे भी विचार तो वही है. लॉन्चपैड पर जाएं और एक पीपीए खोजें जिसमें मेवरिक के लिए पीडीएफओसीआर के संस्करण हों।
चियर्स! पॉल।

लिनक्स का उपयोग करने के लिए जवाब दें
ज्वारे कहा
पूर्व 11 साल

ख़ैर, यह कैसे काम करता है यह देखने की बात होगी

जवारे का जवाब
चलो लिनक्स का उपयोग करें कहा
पूर्व 11 साल

आगे बढ़ो! यदि आप सफल हुए तो हमें बताएं!! यदि यह काम नहीं करता है तो हम आपकी मदद करने का भी प्रयास कर सकते हैं! अभिवादन! पाब्लो.

लिनक्स का उपयोग करने के लिए जवाब दें
a01653 कहा
पूर्व 11 साल

नमस्कार,
मैंने पीडीएफ़ पर प्रोग्राम का परीक्षण किया है और परिणाम बहुत अच्छा नहीं है। मैं पेशेवर एक्रोबैट 8 का आदी हूँ और मैं कुछ इसी तरह की चीज़ की तलाश में था। स्कैन की गई पीडीएफ़ को साफ करने और सीधा करने के लिए एक्रोबैट फ़ाइल उपयोगिताओं को पास करता है और इस प्रकार ओसीआर के लिए एक बेहतर फ़ॉन्ट प्राप्त करता है। क्या आप जानते हैं कि इसका कोई समाधान है?

एक ग्रीटिंग

A01653 का जवाब दें
चलो लिनक्स का उपयोग करें कहा
पूर्व 11 साल

नमस्ते! मैंने सुना है कि Tesseract सबसे अच्छा ओपनसोर्स OCR है। मुझे नहीं पता कि यह अच्छा होगा या नहीं. साथ ही, इसे काम करने के लिए आपको अपने हाथों को थोड़ा गंदा करना होगा। यहां कुछ निर्देश दिए गए हैं. यदि आप सफल हैं, तो कृपया मुझे बताएं, यदि यह काम करता है, तो संभवतः यह एक पोस्ट बन जाएगा।

सबसे पहले Synaptic, "xsane2.03tess" का उपयोग करके "http://download.tuxfamily.org/guadausers/guadaV4/" से पैकेज "tesseract 2-4" और "imagemagick" इंस्टॉल करें।

फिर इसमें tmp फ़ोल्डर बनाएं: /home/yourusername/tmp

फिर इसे कॉन्फ़िगर करने के लिए Xsane खोलें, प्राथमिकताएं-> सेटिंग्स-> OCR टैब और निम्नलिखित भरें:

OCR कमांड -> xsane2tess -l spa
इनपुट फ़ाइल विकल्प -> -i
आउटपुट फ़ाइल विकल्प -> -o
इंटरफ़ेस एफडी-आउट विकल्प -> -x

Xsane सेटिंग्स में "सेव" टैब में उस हिस्से में जहां अस्थायी निर्देशिका कहा गया है, सुनिश्चित करें कि आपके द्वारा "/home/yourusername" में बनाया गया "tmp" फ़ोल्डर मौजूद है।

मैं आपके लिए एक पेज भी छोड़ता हूं जिसमें यह बताया गया है कि यह उबंटू में ओसीआर कैसे करता है: https://help.ubuntu.com/community/OCR

लिनक्स का उपयोग करने के लिए जवाब दें
चलो लिनक्स का उपयोग करें कहा
पूर्व 11 साल

एक अन्य विधि जो मैंने वहां खोजी वह निम्नलिखित है:

यह मानते हुए कि स्कैनर पहले से ही कनेक्ट था और सिस्टम द्वारा पहचाना गया था

1. ओपन सिस्टम> एडमिनिस्ट्रेशन> सिनैप्टिक पैकेज मैनेजर (गनोम में)

2. मैं tesseract-ocr-spa (स्पेनिश में स्कैन करने के लिए) और gscan2pdf इंस्टॉल करने के लिए खोजता हूं और फ्रेम करता हूं

3. स्कैन करने के लिए एप्लिकेशन>ग्राफिक्स>gscan2pdf खोलें

और तैयार।

लिनक्स का उपयोग करने के लिए जवाब दें
कीचड़ परेशान करने वाला कहा
पूर्व 10 साल

अरे मित्र, आपका बहुत-बहुत धन्यवाद, सच तो यह है कि टेसेरैक्ट एक अच्छा उपकरण है, लेकिन "समस्याग्रस्त" स्कैनिंग वाली पुस्तकों की तुलना में बहुत सीमित है। दूसरी ओर, यह सॉफ़्टवेयर अधिक आसानी से अनुकूलित हो जाता है... 😀

ट्रोवाडोर्डेबारो को उत्तर दें
जुआन अनेज़ कहा
पूर्व 10 साल

छवि डिजिटलीकरण प्रक्रिया में, पीडीएफ-ए फाइलें परिवर्तित की जा रही हैं, उन्हें ओसीआर किया जाना चाहिए। ब्लैक एंड व्हाइट या ग्रेस्केल में डिजिटलीकरण परिणाम के प्रति कितना संवेदनशील है? क्या अनुशंसित है?

जुआन अनेज़ को उत्तर दें

अपनी टिप्पणी दर्ज करें उत्तर को रद्द करें

अपनी टिप्पणी दर्ज करें