पीडीएफ में ओसीआर कैसे लागू करें और टेक्स्ट चयन और खोज सक्षम करें

मान लीजिए कि आपके पास एक पीडीएफ है जो एक स्कैनर का उपयोग करके बनाया गया था, या यह आपको दिया गया था लेकिन इसमें एक छवि के रूप में जानकारी शामिल है. वह प्रक्रिया जिसमें हमें अपनी प्रिय पीडीएफ जमा करनी होती है, कहलाती है ओसीआर: एक प्रक्रिया जो स्वचालित रूप से एक छवि से एक निश्चित वर्णमाला से संबंधित प्रतीकों या वर्णों की पहचान करती है, इसे डेटा के रूप में संग्रहीत करती है जिसके साथ हम टेक्स्ट संपादन प्रोग्राम या इसी तरह के माध्यम से बातचीत कर सकते हैं।


पीडीएफओसीआर एक सरल उपकरण है जो एक एम्बेडेड टेक्स्ट परत के साथ एक नया पीडीएफ बनाता है, जो उपयोगकर्ता को पीडीएफ के अंतिम स्वरूप को बदले बिना, टेक्स्ट का चयन करने और उसमें शब्दों को खोजने की अनुमति देता है।

पीडीएफओसीआर किसके लिए नहीं है:

यह केवल तभी काम करता है जब पीडीएफ में छवि के रूप में जानकारी शामिल हो; यदि आपने ओपनऑफिस से पीडीएफ निर्यात किया है, तो इसमें पहले से ही एक एम्बेडेड टेक्स्ट परत है, इसलिए यह प्रक्रिया अनावश्यक है।

पीडीएफओसीआर कैसे स्थापित करें:

sudo add-apt-repository ppa:gezakovacs/pdfocr
उपयुक्त sudo- मिल अद्यतन
sudo apt-get install pdfocr

पीडीएफओसीआर का उपयोग कैसे करें:

एक टर्मिनल खोलें, उस निर्देशिका पर जाएं जहां जिस पीडीएफ को आप कनवर्ट करना चाहते हैं वह स्थित है, और निम्नलिखित दर्ज करें (जिस पीडीएफ को आप कनवर्ट करना चाहते हैं उसके साथ इनपुट.पीडीएफ की जगह और एम्बेडेड टेक्स्ट परत के साथ नई फ़ाइल के नाम के साथ आउटपुट.पीडीएफ)

पीडीएफओसीआर -आई इनपुट.पीडीएफ -ओ आउटपुट.पीडीएफ

अपने पीडीएफ के प्रत्येक पृष्ठ पर ओसीआर निष्पादित होने और अंतिम संशोधित फ़ाइल बनने तक प्रतीक्षा करें। आपके पीडीएफ के रिज़ॉल्यूशन के आधार पर इसमें प्रति पृष्ठ कुछ सेकंड लगने चाहिए।


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।

  1.   रोडोल्फो लारा कहा

    robolfo@rodolfo-desktop:~$ sudo apt-get install pdfocr
    पैकेज सूची पढ़ना ... पूरा किया
    निर्भरता का पेड़ बनाना
    स्टेटस की जानकारी पढ़कर ... हो गया
    ई: पैकेज पीडीएफओसीआर का पता नहीं लगाया जा सका
    robolfo@rodolfo-desktop:~$

  2.   चलो लिनक्स का उपयोग करें कहा

    क्या आपने संबंधित पीपीए जोड़ना सुनिश्चित किया?
    इस पीपीए में संभवतः पुराने उबंटू संस्करणों के लिए पीडीएफओसीआर के संस्करण हैं। सोचिए कि यह पोस्ट पहले से ही कई महीने पुरानी है। वैसे भी विचार तो वही है. लॉन्चपैड पर जाएं और एक पीपीए खोजें जिसमें मेवरिक के लिए पीडीएफओसीआर के संस्करण हों।
    चियर्स! पॉल।

  3.   ज्वारे कहा

    ख़ैर, यह कैसे काम करता है यह देखने की बात होगी

  4.   चलो लिनक्स का उपयोग करें कहा

    आगे बढ़ो! यदि आप सफल हुए तो हमें बताएं!! यदि यह काम नहीं करता है तो हम आपकी मदद करने का भी प्रयास कर सकते हैं! अभिवादन! पाब्लो.

  5.   a01653 कहा

    नमस्कार,
    मैंने पीडीएफ़ पर प्रोग्राम का परीक्षण किया है और परिणाम बहुत अच्छा नहीं है। मैं पेशेवर एक्रोबैट 8 का आदी हूँ और मैं कुछ इसी तरह की चीज़ की तलाश में था। स्कैन की गई पीडीएफ़ को साफ करने और सीधा करने के लिए एक्रोबैट फ़ाइल उपयोगिताओं को पास करता है और इस प्रकार ओसीआर के लिए एक बेहतर फ़ॉन्ट प्राप्त करता है। क्या आप जानते हैं कि इसका कोई समाधान है?

    एक ग्रीटिंग

  6.   चलो लिनक्स का उपयोग करें कहा

    नमस्ते! मैंने सुना है कि Tesseract सबसे अच्छा ओपनसोर्स OCR है। मुझे नहीं पता कि यह अच्छा होगा या नहीं. साथ ही, इसे काम करने के लिए आपको अपने हाथों को थोड़ा गंदा करना होगा। यहां कुछ निर्देश दिए गए हैं. यदि आप सफल हैं, तो कृपया मुझे बताएं, यदि यह काम करता है, तो संभवतः यह एक पोस्ट बन जाएगा।

    सबसे पहले Synaptic, "xsane2.03tess" का उपयोग करके "http://download.tuxfamily.org/guadausers/guadaV4/" से पैकेज "tesseract 2-4" और "imagemagick" इंस्टॉल करें।

    फिर इसमें tmp फ़ोल्डर बनाएं: /home/yourusername/tmp

    फिर इसे कॉन्फ़िगर करने के लिए Xsane खोलें, प्राथमिकताएं-> सेटिंग्स-> OCR टैब और निम्नलिखित भरें:

    OCR कमांड -> xsane2tess -l spa
    इनपुट फ़ाइल विकल्प -> -i
    आउटपुट फ़ाइल विकल्प -> -o
    इंटरफ़ेस एफडी-आउट विकल्प -> -x

    Xsane सेटिंग्स में "सेव" टैब में उस हिस्से में जहां अस्थायी निर्देशिका कहा गया है, सुनिश्चित करें कि आपके द्वारा "/home/yourusername" में बनाया गया "tmp" फ़ोल्डर मौजूद है।

    मैं आपके लिए एक पेज भी छोड़ता हूं जिसमें यह बताया गया है कि यह उबंटू में ओसीआर कैसे करता है: https://help.ubuntu.com/community/OCR

  7.   चलो लिनक्स का उपयोग करें कहा

    एक अन्य विधि जो मैंने वहां खोजी वह निम्नलिखित है:

    यह मानते हुए कि स्कैनर पहले से ही कनेक्ट था और सिस्टम द्वारा पहचाना गया था

    1. ओपन सिस्टम> एडमिनिस्ट्रेशन> सिनैप्टिक पैकेज मैनेजर (गनोम में)

    2. मैं tesseract-ocr-spa (स्पेनिश में स्कैन करने के लिए) और gscan2pdf इंस्टॉल करने के लिए खोजता हूं और फ्रेम करता हूं

    3. स्कैन करने के लिए एप्लिकेशन>ग्राफिक्स>gscan2pdf खोलें

    और तैयार।

  8.   कीचड़ परेशान करने वाला कहा

    अरे मित्र, आपका बहुत-बहुत धन्यवाद, सच तो यह है कि टेसेरैक्ट एक अच्छा उपकरण है, लेकिन "समस्याग्रस्त" स्कैनिंग वाली पुस्तकों की तुलना में बहुत सीमित है। दूसरी ओर, यह सॉफ़्टवेयर अधिक आसानी से अनुकूलित हो जाता है... 😀

  9.   जुआन अनेज़ कहा

    छवि डिजिटलीकरण प्रक्रिया में, पीडीएफ-ए फाइलें परिवर्तित की जा रही हैं, उन्हें ओसीआर किया जाना चाहिए। ब्लैक एंड व्हाइट या ग्रेस्केल में डिजिटलीकरण परिणाम के प्रति कितना संवेदनशील है? क्या अनुशंसित है?