tesseract आणि ocrfeeder सह प्रतिमेतील मजकूर योग्यरित्या कसा ओळखायचा ते शिका.

आपल्यापैकी बर्‍याच जणांना ऑप्टिकल कॅरेक्टर रेकग्निशन (ओसीआर) प्रोग्रॅम माहित असणे आवश्यक आहे, तसे असल्यास, आपण अशा काही लोकांकडे आला आहात जे स्पॅनिश भाषेतील विशिष्ट वर्णांना ओळखत नाहीत जसे की ईई, टेलडे इतरांमधील (ñ, ó, ü).

आता धन्यवाद चाचणी आणि पॅकेज करण्यासाठी टेसेरेक्ट-ओकर-स्पा आम्ही ही पात्रे ओळखण्यास सक्षम आहोत आणि रंग किंवा पिक्सेलची पातळी योग्य नसलेल्या काही प्रतिमांशी कसे वागवायचे ते आम्ही पाहू.

प्रथम आपण निम्न प्रोग्राम स्थापित केले पाहिजेत:

टेसेरेक्ट-ओसीआर
टेसेरेक्ट-ओकर-स्पा
ocrfeeder

डेबियनमध्ये मी शिफारस करतो की सॉफ्टवेअरची स्थापना न करता ते स्थापित करा.

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

आमच्याकडे अशी प्रतिमा असल्यास (स्कॅन केलेला कागदजत्र) ज्यामध्ये पत्र सुवाच्य असेल तर जवळपास 90% प्रकरणांमध्ये मजकूर ओळखणे शक्य होईल, तक्त्या ओळखू शकणार नाहीत, जर प्रतिमेमध्ये 2 स्तंभ असतील तर ते आपोआप ओळखेल मजकूराचा क्रम कायम ठेवण्यासाठी प्रथम स्तंभ आणि नंतर दुसरा.

मजकूर ओळखण्याचे 2 मार्ग आहेत, एक टर्मिनलमधील कमांड लाइनद्वारे किंवा ocrfeeder द्वारे, नंतरच्यासाठी अधिक प्रक्रिया वेळ आवश्यक असेल:

कमांड लाइन पद्धतः

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

एकाधिक प्रतिमांच्या रूपांतरणासाठी आम्ही पुढील आज्ञा वापरू.

cd /carpeta/imagenes find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

नमूद केलेल्या फोल्डरमधील परिणामी मजकूर फायलींमध्ये सामील होण्यासाठी आम्ही खालील कमांड वापरू ज्यासह परिच्छेद योग्यरित्या सामील होतील.

cd /carpeta/imagenes find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

Ocrfeeder सह पद्धत:
1- आम्ही ocrfeeder प्रोग्राम उघडतो.
२- आम्ही साधने - ओसीआर इंजिन वर क्लिक करून इंजिन संपादित करतो, एसेरेट इंजिन निवडा आणि संपादनावर क्लिक करा आणि जेथे ते इंजिन वितर्क सांगते, आम्ही याकरिता स्क्रिप्ट बदलतो:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- आम्ही प्रतिमा किंवा एक फोल्डर आयात करतो जिथे अनेक प्रतिमा असतात.
4- आम्ही कागदजत्र ओळखण्यावर क्लिक करतो, एकदा कागदजत्र ओळखला गेल्यास त्यातील कोणते भाग प्रतिमा किंवा मजकूर असेल ते आपण व्यक्तिचलितपणे निवडू शकता.
The- दस्तऐवज निर्यात करण्यापूर्वी आम्ही संपादन - संपादन पृष्ठावर क्लिक करतो, आम्ही इच्छित पृष्ठ निवडतो, सर्वात सामान्य म्हणजे पत्र (पत्र).
The- दस्तऐवज निर्यात करण्यासाठी आम्ही फाईल - एक्सपोर्ट वर क्लिक करतो, आम्ही इच्छित आउटपुट फॉरमॅट निवडतो, जर डॉक्युमेंटमध्ये प्रतिमा असतील तर मी तुम्हाला ऑड किंवा एचटीएमएल फॉरमॅट वापरण्याचा सल्ला देतो, जर तो फक्त टेक्स्ट असेल तर साधा मजकूर वापरणे चांगले ( txt) स्वरूप.

हे येथे समाप्त होत नाही कारण बर्‍याच फोटोकॉपी आहेत ज्यांचा गुणवत्ता पुरेसा नाही, या दुरुस्तीसाठी आम्ही गिंप आणि एम्बॉस्ड फिल्टर वापरू (ही प्रक्रिया धीमी असू शकते):
1- आम्ही जिम्पसह प्रतिमा उघडतो.
2- आम्ही फिल्टर - विकृती - एम्बॉसिंग, आम्ही दणका नकाशा बॉक्स निवडतो, आम्ही अझिमिथ पातळी अंदाजे 162,25, उंची 88,73 आणि खोली 6 किंवा 3 मध्ये समायोजित करतो. जेपीजी असल्यास आम्ही 100% गुणवत्तेसह प्रतिमा जतन करतो, निर्यातीत - name.jpg.

वैकल्पिकरित्या आपण रंग - स्तर - स्वयं वर क्लिक करून पांढर्या पातळीचे समायोजित करू शकता.

DesdeLinux

परीक्षणाद्वारे आणि ocrfeeder सह प्रतिमेमधील मजकूर योग्यरितीने कसा ओळखावा ते शिका.