પરીક્ષણ અને ocrfeeder સાથે છબીમાં ટેક્સ્ટને કેવી રીતે ઓળખવું તે શીખો.

તમારામાંના ઘણાને ઓપ્ટિકલ કેરેક્ટર રેકગ્નિશન (ઓસીઆર) પ્રોગ્રામ્સ પહેલાથી જ ખબર હોવી જોઈએ, જો એમ હોય તો, તમે કેટલાકને આવશો જે સ્પેનિશ ભાષાના લાક્ષણિક પાત્રોને ઓળખી શકતા નથી જેમ કે અન્ય લોકો (ñ, ó, ü).

હવે આભાર પરીક્ષણ અને પેકેજ માટે પરીક્ષણ-ocr-spa અમે આ પાત્રોને ઓળખવામાં સમર્થ થઈશું અને રંગ અથવા પિક્સેલ સ્તર યોગ્ય ન હોય ત્યાં અમુક છબીઓને કેવી રીતે સારવાર કરવી તે અમે જોઈશું.

પ્રથમ આપણે નીચેના પ્રોગ્રામ્સ ઇન્સ્ટોલ કરવા જોઈએ:

પરીક્ષણ-ઓ.સી.આર.
પરીક્ષણ-ocr-spa
ઓક્રફીડર

ડેબિયનમાં હું તમને સલાહ આપું છું કે ભલામણ કરેલા સ withoutફ્ટવેર ઇન્સ્ટોલ કર્યા વિના તેમને ઇન્સ્ટોલ કરો:

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

જો આપણી પાસે એક છબી (સ્કેન કરેલો દસ્તાવેજ) છે જેમાં અક્ષર સુવાચ્ય છે, તો લગભગ 90% કેસોમાં ટેક્સ્ટને ઓળખવું શક્ય છે, કોષ્ટકો ઓળખી શકાશે નહીં, જો છબીમાં 2 કumnsલમ હોય તો તે આપમેળે ઓળખશે પ્રથમ ક columnલમ અને પછી બીજી ટેક્સ્ટનો ક્રમ જાળવવા માટે.

ટેક્સ્ટને ઓળખવાની 2 રીતો છે, એક ટર્મિનલમાં કમાન્ડ લાઇન દ્વારા અથવા ocrfeeder દ્વારા, બાદમાં વધુ પ્રક્રિયા સમયની જરૂર પડશે:

આદેશ વાક્ય પદ્ધતિ:

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

બહુવિધ છબીઓના રૂપાંતર માટે અમે નીચેનો આદેશ વાપરીશું:

cd /carpeta/imagenes
find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

કહ્યું ફોલ્ડરમાં પરિણામી ટેક્સ્ટ ફાઇલોમાં જોડાવા માટે, અમે નીચેનો આદેશ વાપરીશું કે જેની સાથે ફકરાઓ યોગ્ય રીતે જોડાઈ જશે.

cd /carpeta/imagenes
find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

Ocrfeeder સાથે પદ્ધતિ:
1- અમે ocrfeeder પ્રોગ્રામ ખોલીએ છીએ.
2- આપણે ટૂલ્સ - ઓસીઆર એન્જિન પર ક્લિક કરીને એન્જિનને સંપાદિત કરીએ છીએ, એસેરેક્ટ એન્જિન પસંદ કરો અને સંપાદન પર ક્લિક કરો, અને જ્યાં તે એન્જિન દલીલો કહે છે, અમે આ માટે સ્ક્રિપ્ટ બદલીએ છીએ:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- અમે એક છબી અથવા એક ફોલ્ડર આયાત કરીએ છીએ જ્યાં ઘણી છબીઓ છે.
4- અમે દસ્તાવેજ ઓળખવા પર ક્લિક કરીએ છીએ, એકવાર દસ્તાવેજ ઓળખાઈ જાય પછી તમે જાતે જ પસંદ કરી શકો છો કે તેના કયા ભાગો છબીઓ અથવા ટેક્સ્ટ હશે.
The- દસ્તાવેજની નિકાસ કરતા પહેલા અમે એડિટ - એડિટ પૃષ્ઠ પર ક્લિક કરીએ છીએ, અમે ઇચ્છિત પૃષ્ઠ પસંદ કરીએ છીએ, સૌથી સામાન્ય છે પત્ર (અક્ષર).
The- દસ્તાવેજ નિકાસ કરવા માટે અમે ફાઇલ - નિકાસ પર ક્લિક કરીએ છીએ, અમે ઇચ્છિત આઉટપુટ ફોર્મેટ પસંદ કરીએ છીએ, જો દસ્તાવેજમાં છબીઓ હોય તો હું તમને tડ અથવા એચટીએમએલ ફોર્મેટનો ઉપયોગ કરવાની સલાહ આપીશ, જો તે ફક્ત ટેક્સ્ટ હોય તો સાદા ટેક્સ્ટનો ઉપયોગ કરવો શ્રેષ્ઠ છે ( txt) ફોર્મેટ.

આ અહીં સમાપ્ત થતું નથી કારણ કે ઘણી ફોટોકોપીઝ છે જેની ગુણવત્તા પૂરતી નથી, આને સુધારવા માટે આપણે જીમ્પ અને એમ્બ્સેડ ફિલ્ટરનો ઉપયોગ કરીશું (આ પ્રક્રિયા ધીમી હોઈ શકે છે):
1- અમે જીમ્પ સાથે છબી ખોલીએ છીએ.
2- અમે ગાળકો - વિકૃતિઓ - એમ્બossસિંગ પર ક્લિક કરીએ છીએ, અમે બમ્પ નકશા બ selectક્સને પસંદ કરીએ છીએ, અમે એઝિમથ સ્તરને આશરે 162,25, એલિવેશન 88,73 અને depthંડાઈ 6 અથવા 3. માં સમાયોજિત કરીએ છીએ, જો અમે છબીને 100% ગુણવત્તા સાથે સાચવીએ છીએ, જો તે jpg છે, નિકાસમાં - name.jpg.

વૈકલ્પિક રૂપે તમે રંગો - સ્તર - autoટો પર ક્લિક કરીને સફેદ સ્તરને સમાયોજિત કરી શકો છો.