आप में से बहुत से लोगों को पहले से ही ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) प्रोग्राम्स की जानकारी होनी चाहिए, यदि हां, तो आप कुछ ऐसे आ गए हैं जो स्पेनिश भाषा के विशिष्ट अक्षरों को नहीं पहचानते हैं जैसे कि ईन, दूसरों के बीच (ñ, ó, ü)।
अब आभार Tesseract और पैकेज के लिए tesseract-ocr-Spa हम इन पात्रों को पहचानने में सक्षम होंगे और हम देखेंगे कि कुछ छवियों का इलाज कैसे किया जाए जहां रंग या पिक्सेल का स्तर सही नहीं है।
पहले हमें निम्नलिखित प्रोग्राम स्थापित करने होंगे:
Tesseract-ओसीआर
tesseract-ocr-Spa
एक प्रकार का पशु
डेबियन में मैं आपको अनुशंसित सॉफ्टवेयर्स स्थापित किए बिना उन्हें स्थापित करने की सलाह देता हूं:
sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr
यदि हमारे पास एक छवि (स्कैन किए गए दस्तावेज़) है जिसमें पत्र सुपाठ्य है, तो लगभग 90% मामलों में पाठ को पहचानना संभव होगा, तालिकाओं को मान्यता नहीं दी जाएगी, अगर छवि में 2 कॉलम हैं, तो यह स्वचालित रूप से पहले एक स्तंभ को पहचान लेगा और फिर पाठ के क्रम को बनाए रखने के लिए अन्य।
पाठ को पहचानने के 2 तरीके हैं, एक टर्मिनल में कमांड लाइन के माध्यम से या ocrfeeder के माध्यम से, बाद वाले को अधिक प्रसंस्करण की आवश्यकता होगी:
कमांड लाइन विधि:
tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3
कई छवियों के रूपांतरण के लिए हम निम्नलिखित कमांड का उपयोग करेंगे:
cd /carpeta/imagenes
find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done
उक्त फ़ोल्डर में परिणामी पाठ फ़ाइलों को जोड़ने के लिए हम निम्नलिखित कमांड का उपयोग करेंगे जिसके साथ पैराग्राफ सही तरीके से जुड़ेंगे।
cd /carpeta/imagenes
find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done
Ocrfeeder के साथ विधि:
1- हम ocrfeeder प्रोग्राम खोलते हैं।
2 - हम उपकरण - OCR इंजन पर क्लिक करके इंजन को संपादित करते हैं, हम निबंध इंजन का चयन करते हैं और संपादन पर क्लिक करते हैं, और जहां यह इंजन तर्क कहता है, हम इसके लिए स्क्रिप्ट बदलते हैं:
$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt
3- हम एक छवि या एक फ़ोल्डर आयात करते हैं जहां कई चित्र हैं।
4- हम डॉक्यूमेंट की पहचान पर क्लिक करते हैं, एक बार डॉक्यूमेंट की पहचान हो जाने के बाद आप मैन्युअल रूप से सेलेक्ट कर सकते हैं कि इसके कौन से हिस्से इमेज या टेक्स्ट होंगे।
5- दस्तावेज़ को निर्यात करने से पहले हम Edit - Edit पेज पर क्लिक करते हैं, हम वांछित पेज का चयन करते हैं, सबसे आम अक्षर (अक्षर) है।
6- दस्तावेज़ पर क्लिक करने के लिए हम फ़ाइल पर क्लिक करें - निर्यात करें, हम वांछित आउटपुट प्रारूप का चयन करते हैं, यदि दस्तावेज़ में चित्र हैं, तो मैं आपको ओडीटी या एचटीएमएल प्रारूप का उपयोग करने की सलाह देता हूं, अगर यह केवल पाठ है तो यह प्लेन टेक्स्ट (txt) प्रारूप का उपयोग करना सबसे अच्छा है ।
यह यहां समाप्त नहीं होता है क्योंकि कई फोटोकॉपी हैं जिनकी गुणवत्ता पर्याप्त नहीं है, इनकी मरम्मत के लिए हम जिम्प और उभरा हुआ फिल्टर का उपयोग करेंगे (यह प्रक्रिया धीमी हो सकती है):
1- हम छवि को जिम्प के साथ खोलते हैं।
2- हम फिल्टर - विकृतियों - एम्बॉसिंग पर क्लिक करते हैं, हम बम्प मैप बॉक्स का चयन करते हैं, हम azimuth के स्तर को लगभग 162,25 तक समायोजित करते हैं, 88,73 की ऊंचाई और 6 या 3 तक की गहराई। हम 100% गुणवत्ता के साथ छवि को बचाते हैं अगर यह jpg है, निर्यात में - name.jpg।
वैकल्पिक रूप से आप रंग - स्तर - ऑटो पर क्लिक करके सफेद स्तरों को समायोजित कर सकते हैं।