जानें कैसे सही ढंग से टेक्स्ट को टेसेरेक्ट और ऑरोफीडर से पहचानना है।

आप में से बहुत से लोगों को पहले से ही ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) प्रोग्राम्स की जानकारी होनी चाहिए, यदि हां, तो आप कुछ ऐसे आ गए हैं जो स्पेनिश भाषा के विशिष्ट अक्षरों को नहीं पहचानते हैं जैसे कि ईन, दूसरों के बीच (ñ, ó, ü)।

अब आभार Tesseract और पैकेज के लिए tesseract-ocr-Spa हम इन पात्रों को पहचानने में सक्षम होंगे और हम देखेंगे कि कुछ छवियों का इलाज कैसे किया जाए जहां रंग या पिक्सेल का स्तर सही नहीं है।

पहले हमें निम्नलिखित प्रोग्राम स्थापित करने होंगे:

Tesseract-ओसीआर
tesseract-ocr-Spa
एक प्रकार का पशु

डेबियन में मैं आपको अनुशंसित सॉफ्टवेयर्स स्थापित किए बिना उन्हें स्थापित करने की सलाह देता हूं:

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

यदि हमारे पास एक छवि (स्कैन किए गए दस्तावेज़) है जिसमें पत्र सुपाठ्य है, तो लगभग 90% मामलों में पाठ को पहचानना संभव होगा, तालिकाओं को मान्यता नहीं दी जाएगी, अगर छवि में 2 कॉलम हैं, तो यह स्वचालित रूप से पहले एक स्तंभ को पहचान लेगा और फिर पाठ के क्रम को बनाए रखने के लिए अन्य।

पाठ को पहचानने के 2 तरीके हैं, एक टर्मिनल में कमांड लाइन के माध्यम से या ocrfeeder के माध्यम से, बाद वाले को अधिक प्रसंस्करण की आवश्यकता होगी:

कमांड लाइन विधि:

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

कई छवियों के रूपांतरण के लिए हम निम्नलिखित कमांड का उपयोग करेंगे:

cd /carpeta/imagenes
find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

उक्त फ़ोल्डर में परिणामी पाठ फ़ाइलों को जोड़ने के लिए हम निम्नलिखित कमांड का उपयोग करेंगे जिसके साथ पैराग्राफ सही तरीके से जुड़ेंगे।

cd /carpeta/imagenes
find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

Ocrfeeder के साथ विधि:
1- हम ocrfeeder प्रोग्राम खोलते हैं।
2 - हम उपकरण - OCR इंजन पर क्लिक करके इंजन को संपादित करते हैं, हम निबंध इंजन का चयन करते हैं और संपादन पर क्लिक करते हैं, और जहां यह इंजन तर्क कहता है, हम इसके लिए स्क्रिप्ट बदलते हैं:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- हम एक छवि या एक फ़ोल्डर आयात करते हैं जहां कई चित्र हैं।
4- हम डॉक्यूमेंट की पहचान पर क्लिक करते हैं, एक बार डॉक्यूमेंट की पहचान हो जाने के बाद आप मैन्युअल रूप से सेलेक्ट कर सकते हैं कि इसके कौन से हिस्से इमेज या टेक्स्ट होंगे।
5- दस्तावेज़ को निर्यात करने से पहले हम Edit - Edit पेज पर क्लिक करते हैं, हम वांछित पेज का चयन करते हैं, सबसे आम अक्षर (अक्षर) है।
6- दस्तावेज़ पर क्लिक करने के लिए हम फ़ाइल पर क्लिक करें - निर्यात करें, हम वांछित आउटपुट प्रारूप का चयन करते हैं, यदि दस्तावेज़ में चित्र हैं, तो मैं आपको ओडीटी या एचटीएमएल प्रारूप का उपयोग करने की सलाह देता हूं, अगर यह केवल पाठ है तो यह प्लेन टेक्स्ट (txt) प्रारूप का उपयोग करना सबसे अच्छा है ।

यह यहां समाप्त नहीं होता है क्योंकि कई फोटोकॉपी हैं जिनकी गुणवत्ता पर्याप्त नहीं है, इनकी मरम्मत के लिए हम जिम्प और उभरा हुआ फिल्टर का उपयोग करेंगे (यह प्रक्रिया धीमी हो सकती है):
1- हम छवि को जिम्प के साथ खोलते हैं।
2- हम फिल्टर - विकृतियों - एम्बॉसिंग पर क्लिक करते हैं, हम बम्प मैप बॉक्स का चयन करते हैं, हम azimuth के स्तर को लगभग 162,25 तक समायोजित करते हैं, 88,73 की ऊंचाई और 6 या 3 तक की गहराई। हम 100% गुणवत्ता के साथ छवि को बचाते हैं अगर यह jpg है, निर्यात में - name.jpg।

वैकल्पिक रूप से आप रंग - स्तर - ऑटो पर क्लिक करके सफेद स्तरों को समायोजित कर सकते हैं।