समजा आपल्याकडे पीडीएफ आहे जो स्कॅनर वापरुन तयार केला गेला आहे, किंवा त्यांनी तो आपल्याकडे पाठविला परंतु त्यात प्रतिमेच्या रूपात माहिती आहे. ज्या प्रक्रियेवर आपण आपला प्रिय PDF सादर केला पाहिजे त्याला म्हणतात OCR: अशी प्रक्रिया जी एखाद्या विशिष्ट वर्णमाला संबंधित चिन्हे किंवा वर्ण स्वयंचलितपणे ओळखते, एखाद्या प्रतिमेमधून डेटाच्या रुपात ती संचयित करण्यासाठी आम्ही मजकूर संपादन प्रोग्रामद्वारे किंवा तत्सम संवाद साधू शकतो. |
पीडीएफकर एक साधे साधन आहे जे एम्बेड केलेल्या मजकूर लेयरसह एक नवीन पीडीएफ तयार करते, वापरकर्त्यास मजकूर निवडण्याची परवानगी देते आणि त्यामध्ये शब्द शोधू शकते, पीडीएफचे अंतिम स्वरूप न बदलता.
पीडीएफओकर कशासाठी नाही:
पीडीएफमध्ये प्रतिमा स्वरूपात माहिती असेल तरच हे उपयुक्त आहे; जर आपण ओपनऑफिस वरून पीडीएफ निर्यात केले असेल तर त्यात आधीपासूनच एम्बेड केलेला मजकूर स्तर आहे, म्हणून ही प्रक्रिया अनावश्यक आहे.
Pdfocr कसे स्थापित करावे:
sudo -ड-ptप-रिपॉझिटरी पीपीए: gezakovacs / pdfocr
सुडो apt-get अद्यतने
sudo apt-get pdfocr स्थापित करा
Pdfocr कसे वापरावे:
टर्मिनल उघडा, आपण ज्या पीडीएफमध्ये रूपांतरित करू इच्छित आहात त्या डिरेक्टरीमध्ये जा आणि पुढील प्रविष्ट करा (एम्बेड केलेल्या मजकूर लेयरसह नवीन फाईलच्या नावाने आपण इनपुट.पीडीएफला रूपांतरित करू इच्छित पीडीएफ आणि आउटपुट.पीडीएफ बदलू शकता)
pdfocr -i इनपुट.पीडीएफ -ओ आउटपुट.पीडीएफ
आपल्या पीडीएफच्या प्रत्येक पृष्ठासाठी ओसीआर सराव करण्याची आणि अंतिम सुधारित फाइल तयार होण्याची प्रतीक्षा करा. आपल्या पीडीएफच्या रिजोल्यूशनवर अवलंबून या पृष्ठास काही सेकंद लागतील.
रॉडॉल्फो @ रॉडॉल्फो-डेस्कटॉपः p $ sud apt-get pdfocr इंस्टॉल करा
पॅकेज सूची वाचत आहे ... पूर्ण झाले
अवलंबन वृक्ष तयार करणे
स्थिती माहिती वाचत आहे ... पूर्ण झाले
E: pdfocr पॅकेज आढळू शकले नाही
रॉडॉल्फो @ रॉडॉल्फो-डेस्कटॉप: ~ $
आपण संबंधित पीपीए जोडण्याची खात्री केली आहे?
या पीपीएमध्ये जुन्या उबंटू आवृत्त्यांसाठी pdfocr च्या आवृत्त्या आहेत. विचार करा की हे पोस्ट आधीच कित्येक महिन्यांचे आहे. असो, कल्पना एकच आहे. लाँचपॅडवर जा आणि मॅव्हरिकसाठी पीडीएफोकरची आवृत्ती असलेल्या पीपीए शोधा.
चीअर्स! पॉल.
ठीक आहे, हे कसे कार्य करते हे पाहण्याकरता ही त्याची चाचणी घेण्याची बाब असेल
पुढे जा! आपण यशस्वी होता तर आम्हाला कळवा !! जर ते कार्य करत नसेल तर आम्ही आपल्याला मदत करण्याचा प्रयत्न देखील करू शकतो! चीअर्स! पॉल.
हाय,
मी प्रोग्रामची पीडीएफवर चाचणी केली आहे आणि निकाल फारसा चांगला नाही. मी व्यावसायिक अॅक्रोबॅट 8 ची सवय लावून आहे आणि मी असेच काहीतरी शोधत होतो. अॅक्रोबॅट स्कॅन केलेल्या पीडीएफ साफ आणि सरळ करण्यासाठी फायलींमध्ये उपयुक्तता पाठवितो आणि अशा प्रकारे ओकरसाठी एक चांगला स्त्रोत मिळवितो. यासाठी उपाय आहे की नाही हे आपणास ठाऊक आहे.
धन्यवाद!
नमस्कार! मी ऐकले आहे की टेस्क्रॅक्ट हा एक उत्तम ओपनसोर्स ओसीआर आहे. हे चांगले होईल की नाही हे मला माहित नाही. तसेच, हे कार्य करण्यासाठी आपल्याला आपले हात थोडे गलिच्छ करावे लागेल. येथे काही सूचना आहेत. जर तुम्ही यशस्वी असाल तर मी तुम्हाला विनंति करतो की मला कळवा, जर ते कार्य करत असेल तर ते कदाचित एक पोस्ट होईल.
"Http://download.tuxfamily.org/guadausers/guadaV2.03/" वरून Synaptic, "xsane4tess" चा वापर करून प्रथम "tesseract 2-4" आणि "imagemagick" पॅकेजेस स्थापित करा.
त्यानंतर यात: / होम / yourusername / tmp मध्ये tmp फोल्डर तयार करा
त्यानंतर कॉन्फिगर करण्यासाठी Xsane, प्राधान्ये> कॉन्फिगरेशन–> ओसीआर टॅब उघडा आणि खालील भरा:
ओसीआर आदेश -> xsane2tess -l स्पा
इनपुट फाइल पर्याय -> -i
आउटपुट फाइल पर्याय -> -ओ
आउटपुट पर्याय - एफडी इंटरफेस -> -एक्स
तात्पुरती निर्देशिका म्हणत असलेल्या भागातील "सेव्ह" टॅबमधील क्षन कॉन्फिगरेशनमध्ये, आपण "/ home / yourusername" मध्ये तयार केलेले "tmp" फोल्डर असल्याचे निश्चित करा.
उबंटूमध्ये ओसीआर कसे करावे याबद्दल तपशीलांसह मी एक पृष्ठ देखील आपल्यास सोडतो: https://help.ubuntu.com/community/OCR
मला सापडलेली दुसरी पद्धत खालीलप्रमाणे आहेः
गृहीत धरून स्कॅनर आधीपासून कनेक्ट केलेले आहे आणि सिस्टमद्वारे ओळखले गेले आहे
1. मी सिस्टम> प्रशासन> सिनॅप्टिक पॅकेज मॅनेजर उघडतो (जीनोममध्ये)
२. टेसेरेक्ट-ओकर-स्पा (स्पॅनिशमध्ये स्कॅन करण्यासाठी) आणि gscan2pdf स्थापित करण्यासाठी शोध आणि फ्रेमवर्क
Scan. स्कॅन करण्यासाठी मी अॅप्लिकेशन्स> ग्राफिक्स> gscan3pdf उघडतो
आणि तयार.
अहो मित्रा, तुमचे मनापासून आभार, सत्य हे आहे की परीक्षणे एक चांगले साधन आहे, परंतु "समस्याप्रधान" स्कॅनिंग असलेल्या पुस्तकांच्या तुलनेत खूपच मर्यादित आहे. दुसरीकडे, हे सॉफ्टवेअर अधिक सहजपणे रुपांतर करते ... 😀
प्रतिमांचे डिजिटलायझेशन प्रक्रियेत, पीडीएफ-ए फायली रूपांतरित केल्या जात आहेत, त्या ओसीआर केल्या पाहिजेत. ब्लॅक अॅन्ड व्हाईट किंवा ग्रेस्केलमध्ये स्कॅनिंग करण्याच्या निकालाबाबत किती संवेदनशील आहे? काय शिफारस केली जाते?