पीडीएफचे ओसीआर कसे करावे आणि मजकूर निवड आणि शोध सक्षम करा

समजा आपल्याकडे पीडीएफ आहे जो स्कॅनर वापरुन तयार केला गेला आहे, किंवा त्यांनी तो आपल्याकडे पाठविला परंतु त्यात प्रतिमेच्या रूपात माहिती आहे. ज्या प्रक्रियेवर आपण आपला प्रिय PDF सादर केला पाहिजे त्याला म्हणतात OCR: अशी प्रक्रिया जी एखाद्या विशिष्ट वर्णमाला संबंधित चिन्हे किंवा वर्ण स्वयंचलितपणे ओळखते, एखाद्या प्रतिमेमधून डेटाच्या रुपात ती संचयित करण्यासाठी आम्ही मजकूर संपादन प्रोग्रामद्वारे किंवा तत्सम संवाद साधू शकतो.


पीडीएफकर एक साधे साधन आहे जे एम्बेड केलेल्या मजकूर लेयरसह एक नवीन पीडीएफ तयार करते, वापरकर्त्यास मजकूर निवडण्याची परवानगी देते आणि त्यामध्ये शब्द शोधू शकते, पीडीएफचे अंतिम स्वरूप न बदलता.

पीडीएफओकर कशासाठी नाही:

पीडीएफमध्ये प्रतिमा स्वरूपात माहिती असेल तरच हे उपयुक्त आहे; जर आपण ओपनऑफिस वरून पीडीएफ निर्यात केले असेल तर त्यात आधीपासूनच एम्बेड केलेला मजकूर स्तर आहे, म्हणून ही प्रक्रिया अनावश्यक आहे.

Pdfocr कसे स्थापित करावे:

sudo -ड-ptप-रिपॉझिटरी पीपीए: gezakovacs / pdfocr
सुडो apt-get अद्यतने
sudo apt-get pdfocr स्थापित करा

Pdfocr कसे वापरावे:

टर्मिनल उघडा, आपण ज्या पीडीएफमध्ये रूपांतरित करू इच्छित आहात त्या डिरेक्टरीमध्ये जा आणि पुढील प्रविष्ट करा (एम्बेड केलेल्या मजकूर लेयरसह नवीन फाईलच्या नावाने आपण इनपुट.पीडीएफला रूपांतरित करू इच्छित पीडीएफ आणि आउटपुट.पीडीएफ बदलू शकता)

pdfocr -i इनपुट.पीडीएफ -ओ आउटपुट.पीडीएफ

आपल्या पीडीएफच्या प्रत्येक पृष्ठासाठी ओसीआर सराव करण्याची आणि अंतिम सुधारित फाइल तयार होण्याची प्रतीक्षा करा. आपल्या पीडीएफच्या रिजोल्यूशनवर अवलंबून या पृष्ठास काही सेकंद लागतील.


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटा जबाबदार: मिगुएल Áन्गल गॅटन
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.

  1.   रोडल्फो लारा म्हणाले

    रॉडॉल्फो @ रॉडॉल्फो-डेस्कटॉपः p $ sud apt-get pdfocr इंस्टॉल करा
    पॅकेज सूची वाचत आहे ... पूर्ण झाले
    अवलंबन वृक्ष तयार करणे
    स्थिती माहिती वाचत आहे ... पूर्ण झाले
    E: pdfocr पॅकेज आढळू शकले नाही
    रॉडॉल्फो @ रॉडॉल्फो-डेस्कटॉप: ~ $

  2.   लिनक्स वापरुया म्हणाले

    आपण संबंधित पीपीए जोडण्याची खात्री केली आहे?
    या पीपीएमध्ये जुन्या उबंटू आवृत्त्यांसाठी pdfocr च्या आवृत्त्या आहेत. विचार करा की हे पोस्ट आधीच कित्येक महिन्यांचे आहे. असो, कल्पना एकच आहे. लाँचपॅडवर जा आणि मॅव्हरिकसाठी पीडीएफोकरची आवृत्ती असलेल्या पीपीए शोधा.
    चीअर्स! पॉल.

  3.   ज्वारे म्हणाले

    ठीक आहे, हे कसे कार्य करते हे पाहण्याकरता ही त्याची चाचणी घेण्याची बाब असेल

  4.   लिनक्स वापरुया म्हणाले

    पुढे जा! आपण यशस्वी होता तर आम्हाला कळवा !! जर ते कार्य करत नसेल तर आम्ही आपल्याला मदत करण्याचा प्रयत्न देखील करू शकतो! चीअर्स! पॉल.

  5.   a01653 म्हणाले

    हाय,
    मी प्रोग्रामची पीडीएफवर चाचणी केली आहे आणि निकाल फारसा चांगला नाही. मी व्यावसायिक अ‍ॅक्रोबॅट 8 ची सवय लावून आहे आणि मी असेच काहीतरी शोधत होतो. अ‍ॅक्रोबॅट स्कॅन केलेल्या पीडीएफ साफ आणि सरळ करण्यासाठी फायलींमध्ये उपयुक्तता पाठवितो आणि अशा प्रकारे ओकरसाठी एक चांगला स्त्रोत मिळवितो. यासाठी उपाय आहे की नाही हे आपणास ठाऊक आहे.

    धन्यवाद!

  6.   लिनक्स वापरुया म्हणाले

    नमस्कार! मी ऐकले आहे की टेस्क्रॅक्ट हा एक उत्तम ओपनसोर्स ओसीआर आहे. हे चांगले होईल की नाही हे मला माहित नाही. तसेच, हे कार्य करण्यासाठी आपल्याला आपले हात थोडे गलिच्छ करावे लागेल. येथे काही सूचना आहेत. जर तुम्ही यशस्वी असाल तर मी तुम्हाला विनंति करतो की मला कळवा, जर ते कार्य करत असेल तर ते कदाचित एक पोस्ट होईल.

    "Http://download.tuxfamily.org/guadausers/guadaV2.03/" वरून Synaptic, "xsane4tess" चा वापर करून प्रथम "tesseract 2-4" आणि "imagemagick" पॅकेजेस स्थापित करा.

    त्यानंतर यात: / होम / yourusername / tmp मध्ये tmp फोल्डर तयार करा

    त्यानंतर कॉन्फिगर करण्यासाठी Xsane, प्राधान्ये> कॉन्फिगरेशन–> ओसीआर टॅब उघडा आणि खालील भरा:

    ओसीआर आदेश -> xsane2tess -l स्पा
    इनपुट फाइल पर्याय -> -i
    आउटपुट फाइल पर्याय -> -ओ
    आउटपुट पर्याय - एफडी इंटरफेस -> -एक्स

    तात्पुरती निर्देशिका म्हणत असलेल्या भागातील "सेव्ह" टॅबमधील क्षन कॉन्फिगरेशनमध्ये, आपण "/ home / yourusername" मध्ये तयार केलेले "tmp" फोल्डर असल्याचे निश्चित करा.

    उबंटूमध्ये ओसीआर कसे करावे याबद्दल तपशीलांसह मी एक पृष्ठ देखील आपल्यास सोडतो: https://help.ubuntu.com/community/OCR

  7.   लिनक्स वापरुया म्हणाले

    मला सापडलेली दुसरी पद्धत खालीलप्रमाणे आहेः

    गृहीत धरून स्कॅनर आधीपासून कनेक्ट केलेले आहे आणि सिस्टमद्वारे ओळखले गेले आहे

    1. मी सिस्टम> प्रशासन> सिनॅप्टिक पॅकेज मॅनेजर उघडतो (जीनोममध्ये)

    २. टेसेरेक्ट-ओकर-स्पा (स्पॅनिशमध्ये स्कॅन करण्यासाठी) आणि gscan2pdf स्थापित करण्यासाठी शोध आणि फ्रेमवर्क

    Scan. स्कॅन करण्यासाठी मी अ‍ॅप्लिकेशन्स> ग्राफिक्स> gscan3pdf उघडतो

    आणि तयार.

  8.   ट्राउबाडौर म्हणाले

    अहो मित्रा, तुमचे मनापासून आभार, सत्य हे आहे की परीक्षणे एक चांगले साधन आहे, परंतु "समस्याप्रधान" स्कॅनिंग असलेल्या पुस्तकांच्या तुलनेत खूपच मर्यादित आहे. दुसरीकडे, हे सॉफ्टवेअर अधिक सहजपणे रुपांतर करते ... 😀

  9.   जुआन अनीज म्हणाले

    प्रतिमांचे डिजिटलायझेशन प्रक्रियेत, पीडीएफ-ए फायली रूपांतरित केल्या जात आहेत, त्या ओसीआर केल्या पाहिजेत. ब्लॅक अ‍ॅन्ड व्हाईट किंवा ग्रेस्केलमध्ये स्कॅनिंग करण्याच्या निकालाबाबत किती संवेदनशील आहे? काय शिफारस केली जाते?