आपल्यापैकी बर्याच जणांना ऑप्टिकल कॅरेक्टर रेकग्निशन (ओसीआर) प्रोग्रॅम माहित असणे आवश्यक आहे, तसे असल्यास, आपण अशा काही लोकांकडे आला आहात जे स्पॅनिश भाषेतील विशिष्ट वर्णांना ओळखत नाहीत जसे की ईई, टेलडे इतरांमधील (ñ, ó, ü).
आता धन्यवाद चाचणी आणि पॅकेज करण्यासाठी टेसेरेक्ट-ओकर-स्पा आम्ही ही पात्रे ओळखण्यास सक्षम आहोत आणि रंग किंवा पिक्सेलची पातळी योग्य नसलेल्या काही प्रतिमांशी कसे वागवायचे ते आम्ही पाहू.
प्रथम आपण निम्न प्रोग्राम स्थापित केले पाहिजेत:
टेसेरेक्ट-ओसीआर
टेसेरेक्ट-ओकर-स्पा
ocrfeeder
डेबियनमध्ये मी शिफारस करतो की सॉफ्टवेअरची स्थापना न करता ते स्थापित करा.
sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr
आमच्याकडे अशी प्रतिमा असल्यास (स्कॅन केलेला कागदजत्र) ज्यामध्ये पत्र सुवाच्य असेल तर जवळपास 90% प्रकरणांमध्ये मजकूर ओळखणे शक्य होईल, तक्त्या ओळखू शकणार नाहीत, जर प्रतिमेमध्ये 2 स्तंभ असतील तर ते आपोआप ओळखेल मजकूराचा क्रम कायम ठेवण्यासाठी प्रथम स्तंभ आणि नंतर दुसरा.
मजकूर ओळखण्याचे 2 मार्ग आहेत, एक टर्मिनलमधील कमांड लाइनद्वारे किंवा ocrfeeder द्वारे, नंतरच्यासाठी अधिक प्रक्रिया वेळ आवश्यक असेल:
कमांड लाइन पद्धतः
tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3
एकाधिक प्रतिमांच्या रूपांतरणासाठी आम्ही पुढील आज्ञा वापरू.
cd /carpeta/imagenes
find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done
नमूद केलेल्या फोल्डरमधील परिणामी मजकूर फायलींमध्ये सामील होण्यासाठी आम्ही खालील कमांड वापरू ज्यासह परिच्छेद योग्यरित्या सामील होतील.
cd /carpeta/imagenes
find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done
Ocrfeeder सह पद्धत:
1- आम्ही ocrfeeder प्रोग्राम उघडतो.
२- आम्ही साधने - ओसीआर इंजिन वर क्लिक करून इंजिन संपादित करतो, एसेरेट इंजिन निवडा आणि संपादनावर क्लिक करा आणि जेथे ते इंजिन वितर्क सांगते, आम्ही याकरिता स्क्रिप्ट बदलतो:
$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt
3- आम्ही प्रतिमा किंवा एक फोल्डर आयात करतो जिथे अनेक प्रतिमा असतात.
4- आम्ही कागदजत्र ओळखण्यावर क्लिक करतो, एकदा कागदजत्र ओळखला गेल्यास त्यातील कोणते भाग प्रतिमा किंवा मजकूर असेल ते आपण व्यक्तिचलितपणे निवडू शकता.
The- दस्तऐवज निर्यात करण्यापूर्वी आम्ही संपादन - संपादन पृष्ठावर क्लिक करतो, आम्ही इच्छित पृष्ठ निवडतो, सर्वात सामान्य म्हणजे पत्र (पत्र).
The- दस्तऐवज निर्यात करण्यासाठी आम्ही फाईल - एक्सपोर्ट वर क्लिक करतो, आम्ही इच्छित आउटपुट फॉरमॅट निवडतो, जर डॉक्युमेंटमध्ये प्रतिमा असतील तर मी तुम्हाला ऑड किंवा एचटीएमएल फॉरमॅट वापरण्याचा सल्ला देतो, जर तो फक्त टेक्स्ट असेल तर साधा मजकूर वापरणे चांगले ( txt) स्वरूप.
हे येथे समाप्त होत नाही कारण बर्याच फोटोकॉपी आहेत ज्यांचा गुणवत्ता पुरेसा नाही, या दुरुस्तीसाठी आम्ही गिंप आणि एम्बॉस्ड फिल्टर वापरू (ही प्रक्रिया धीमी असू शकते):
1- आम्ही जिम्पसह प्रतिमा उघडतो.
2- आम्ही फिल्टर - विकृती - एम्बॉसिंग, आम्ही दणका नकाशा बॉक्स निवडतो, आम्ही अझिमिथ पातळी अंदाजे 162,25, उंची 88,73 आणि खोली 6 किंवा 3 मध्ये समायोजित करतो. जेपीजी असल्यास आम्ही 100% गुणवत्तेसह प्रतिमा जतन करतो, निर्यातीत - name.jpg.
वैकल्पिकरित्या आपण रंग - स्तर - स्वयं वर क्लिक करून पांढर्या पातळीचे समायोजित करू शकता.