पीडीएफचे ओसीआर कसे करावे आणि मजकूर निवड आणि शोध सक्षम करा

1 मिनिट

समजा आपल्याकडे पीडीएफ आहे जो स्कॅनर वापरुन तयार केला गेला आहे, किंवा त्यांनी तो आपल्याकडे पाठविला परंतु त्यात प्रतिमेच्या रूपात माहिती आहे. ज्या प्रक्रियेवर आपण आपला प्रिय PDF सादर केला पाहिजे त्याला म्हणतात OCR: अशी प्रक्रिया जी एखाद्या विशिष्ट वर्णमाला संबंधित चिन्हे किंवा वर्ण स्वयंचलितपणे ओळखते, एखाद्या प्रतिमेमधून डेटाच्या रुपात ती संचयित करण्यासाठी आम्ही मजकूर संपादन प्रोग्रामद्वारे किंवा तत्सम संवाद साधू शकतो.

पीडीएफकर एक साधे साधन आहे जे एम्बेड केलेल्या मजकूर लेयरसह एक नवीन पीडीएफ तयार करते, वापरकर्त्यास मजकूर निवडण्याची परवानगी देते आणि त्यामध्ये शब्द शोधू शकते, पीडीएफचे अंतिम स्वरूप न बदलता.

पीडीएफओकर कशासाठी नाही:

पीडीएफमध्ये प्रतिमा स्वरूपात माहिती असेल तरच हे उपयुक्त आहे; जर आपण ओपनऑफिस वरून पीडीएफ निर्यात केले असेल तर त्यात आधीपासूनच एम्बेड केलेला मजकूर स्तर आहे, म्हणून ही प्रक्रिया अनावश्यक आहे.

Pdfocr कसे स्थापित करावे:

sudo -ड-ptप-रिपॉझिटरी पीपीए: gezakovacs / pdfocr
सुडो apt-get अद्यतने
sudo apt-get pdfocr स्थापित करा

Pdfocr कसे वापरावे:

टर्मिनल उघडा, आपण ज्या पीडीएफमध्ये रूपांतरित करू इच्छित आहात त्या डिरेक्टरीमध्ये जा आणि पुढील प्रविष्ट करा (एम्बेड केलेल्या मजकूर लेयरसह नवीन फाईलच्या नावाने आपण इनपुट.पीडीएफला रूपांतरित करू इच्छित पीडीएफ आणि आउटपुट.पीडीएफ बदलू शकता)

pdfocr -i इनपुट.पीडीएफ -ओ आउटपुट.पीडीएफ

आपल्या पीडीएफच्या प्रत्येक पृष्ठासाठी ओसीआर सराव करण्याची आणि अंतिम सुधारित फाइल तयार होण्याची प्रतीक्षा करा. आपल्या पीडीएफच्या रिजोल्यूशनवर अवलंबून या पृष्ठास काही सेकंद लागतील.

आपली टिप्पणी द्या उत्तर रद्द करा

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

टिप्पणी *

नाव*

Correo electrónico*

मी स्वीकारतो गोपनीयता अटी*

डेटा जबाबदार: मिगुएल Áन्गल गॅटन
डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
कायदे: आपली संमती
डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.

मला वृत्तपत्र प्राप्त करायचे आहे

रोडल्फो लारा म्हणाले
बनवते 11 वर्षे

रॉडॉल्फो @ रॉडॉल्फो-डेस्कटॉपः p $ sud apt-get pdfocr इंस्टॉल करा
पॅकेज सूची वाचत आहे ... पूर्ण झाले
अवलंबन वृक्ष तयार करणे
स्थिती माहिती वाचत आहे ... पूर्ण झाले
E: pdfocr पॅकेज आढळू शकले नाही
रॉडॉल्फो @ रॉडॉल्फो-डेस्कटॉप: ~ $

रॉडॉल्फो लाराला प्रत्युत्तर द्या
लिनक्स वापरुया म्हणाले
बनवते 11 वर्षे

आपण संबंधित पीपीए जोडण्याची खात्री केली आहे?
या पीपीएमध्ये जुन्या उबंटू आवृत्त्यांसाठी pdfocr च्या आवृत्त्या आहेत. विचार करा की हे पोस्ट आधीच कित्येक महिन्यांचे आहे. असो, कल्पना एकच आहे. लाँचपॅडवर जा आणि मॅव्हरिकसाठी पीडीएफोकरची आवृत्ती असलेल्या पीपीए शोधा.
चीअर्स! पॉल.

चला लिनक्स यूज लिनक्सला प्रतिसाद द्या
ज्वारे म्हणाले
बनवते 11 वर्षे

ठीक आहे, हे कसे कार्य करते हे पाहण्याकरता ही त्याची चाचणी घेण्याची बाब असेल

Jvare यांना प्रत्युत्तर द्या
लिनक्स वापरुया म्हणाले
बनवते 11 वर्षे

पुढे जा! आपण यशस्वी होता तर आम्हाला कळवा !! जर ते कार्य करत नसेल तर आम्ही आपल्याला मदत करण्याचा प्रयत्न देखील करू शकतो! चीअर्स! पॉल.

चला लिनक्स यूज लिनक्सला प्रतिसाद द्या
a01653 म्हणाले
बनवते 11 वर्षे

हाय,
मी प्रोग्रामची पीडीएफवर चाचणी केली आहे आणि निकाल फारसा चांगला नाही. मी व्यावसायिक अ‍ॅक्रोबॅट 8 ची सवय लावून आहे आणि मी असेच काहीतरी शोधत होतो. अ‍ॅक्रोबॅट स्कॅन केलेल्या पीडीएफ साफ आणि सरळ करण्यासाठी फायलींमध्ये उपयुक्तता पाठवितो आणि अशा प्रकारे ओकरसाठी एक चांगला स्त्रोत मिळवितो. यासाठी उपाय आहे की नाही हे आपणास ठाऊक आहे.

धन्यवाद!

A01653 ला प्रत्युत्तर द्या
लिनक्स वापरुया म्हणाले
बनवते 11 वर्षे

नमस्कार! मी ऐकले आहे की टेस्क्रॅक्ट हा एक उत्तम ओपनसोर्स ओसीआर आहे. हे चांगले होईल की नाही हे मला माहित नाही. तसेच, हे कार्य करण्यासाठी आपल्याला आपले हात थोडे गलिच्छ करावे लागेल. येथे काही सूचना आहेत. जर तुम्ही यशस्वी असाल तर मी तुम्हाला विनंति करतो की मला कळवा, जर ते कार्य करत असेल तर ते कदाचित एक पोस्ट होईल.

"Http://download.tuxfamily.org/guadausers/guadaV2.03/" वरून Synaptic, "xsane4tess" चा वापर करून प्रथम "tesseract 2-4" आणि "imagemagick" पॅकेजेस स्थापित करा.

त्यानंतर यात: / होम / yourusername / tmp मध्ये tmp फोल्डर तयार करा

त्यानंतर कॉन्फिगर करण्यासाठी Xsane, प्राधान्ये> कॉन्फिगरेशन–> ओसीआर टॅब उघडा आणि खालील भरा:

ओसीआर आदेश -> xsane2tess -l स्पा
इनपुट फाइल पर्याय -> -i
आउटपुट फाइल पर्याय -> -ओ
आउटपुट पर्याय - एफडी इंटरफेस -> -एक्स

तात्पुरती निर्देशिका म्हणत असलेल्या भागातील "सेव्ह" टॅबमधील क्षन कॉन्फिगरेशनमध्ये, आपण "/ home / yourusername" मध्ये तयार केलेले "tmp" फोल्डर असल्याचे निश्चित करा.

उबंटूमध्ये ओसीआर कसे करावे याबद्दल तपशीलांसह मी एक पृष्ठ देखील आपल्यास सोडतो: https://help.ubuntu.com/community/OCR

चला लिनक्स यूज लिनक्सला प्रतिसाद द्या
लिनक्स वापरुया म्हणाले
बनवते 11 वर्षे

मला सापडलेली दुसरी पद्धत खालीलप्रमाणे आहेः

गृहीत धरून स्कॅनर आधीपासून कनेक्ट केलेले आहे आणि सिस्टमद्वारे ओळखले गेले आहे

1. मी सिस्टम> प्रशासन> सिनॅप्टिक पॅकेज मॅनेजर उघडतो (जीनोममध्ये)

२. टेसेरेक्ट-ओकर-स्पा (स्पॅनिशमध्ये स्कॅन करण्यासाठी) आणि gscan2pdf स्थापित करण्यासाठी शोध आणि फ्रेमवर्क

Scan. स्कॅन करण्यासाठी मी अ‍ॅप्लिकेशन्स> ग्राफिक्स> gscan3pdf उघडतो

आणि तयार.

चला लिनक्स यूज लिनक्सला प्रतिसाद द्या
ट्राउबाडौर म्हणाले
बनवते 10 वर्षे

अहो मित्रा, तुमचे मनापासून आभार, सत्य हे आहे की परीक्षणे एक चांगले साधन आहे, परंतु "समस्याप्रधान" स्कॅनिंग असलेल्या पुस्तकांच्या तुलनेत खूपच मर्यादित आहे. दुसरीकडे, हे सॉफ्टवेअर अधिक सहजपणे रुपांतर करते ... 😀

ट्रॉवाडोर्डेबरोला प्रत्युत्तर द्या
जुआन अनीज म्हणाले
बनवते 10 वर्षे

प्रतिमांचे डिजिटलायझेशन प्रक्रियेत, पीडीएफ-ए फायली रूपांतरित केल्या जात आहेत, त्या ओसीआर केल्या पाहिजेत. ब्लॅक अ‍ॅन्ड व्हाईट किंवा ग्रेस्केलमध्ये स्कॅनिंग करण्याच्या निकालाबाबत किती संवेदनशील आहे? काय शिफारस केली जाते?

जुआन अनीजला प्रत्युत्तर द्या