د ټیسټریکټ او ocrfeeder سره په عکس کې د متن په سمه توګه پیژندلو څرنګوالي زده کړه.

ستاسو څخه ډیری باید دمخه د نظری کرکټر پیژندنې (OCR) برنامو پوهیږي ، که داسې وي ، نو تاسو ځینې داسې راغلي چې د هسپانوي ژبې ځانګړتیاوې لکه Eñe ، t otherslde د نورو په مینځ کې نه پیژني (ñ، ó، ü).

اوس مننه ازموینه او کڅوړې ته tesseract-ocr-eng موږ به دا وړتیاوې وپیژنو او موږ به وګورو چې د ځانګړي عکسونو درملنه څنګه وکړو چیرې چې د رنګ یا پکسل کچه سمه نده.

لومړی موږ باید لاندې برنامه نصب کړو:

tesseract-ocr
tesseract-ocr-eng
ocfeeder

په دیبیان کې زه تاسو ته مشوره درکوم چې د وړاندیز شوي سافټویرونو نصبولو پرته دا نصب کړئ:

sudo apt-get --no-install-recommends install ocrfeeder tesseract-ocr-spa tesseract-ocr

که موږ یو عکس (سکین شوی سند) ولرو چې خط پکې د منلو وړ وي ، نو دا به امکان ولري چې په نږدې 90٪ قضیو کې متن وپیژندل شي ، میزونه به ونه پیژندل شي ، که چیرې عکس 2 کالمونه ولري نو دا به پخپله لومړی کالم وپیژني او بیا بل د متن ترتیب ساتل.

د متن پیژندلو لپاره دوه لارې شتون لري ، یوه یې په ترمینل یا د ocrfeeder له لارې د قوماندې لیکې له لارې ، وروستی به ډیر پروسس وخت ته اړتیا ولري:

د بولۍ لیکې میتود:

tesseract "/entrada/fichero.jpg" "/salida/fichero.txt" -l spa -psm 3

د ګ imagesو عکسونو د تبادلې لپاره به لاندې کمانډ وکاروو:

cd /carpeta/imagenes
find ./ -name "*.jpg" | sort | while read file; do tesseract "$file" "`basename "$file" | sed 's/\.[[:alnum:]]*$//'`.txt" -l spa -psm 3; done

په ویل شوي فولډر کې د پایلو متن فایلونو کې د ګډون لپاره موږ به لاندې کمانډ وکاروو چې ورسره پراګرافونه به په سمه توګه یوځای شي.

cd /carpeta/imagenes
find ./ -name "*.txt" | sort | while read file; do cat "$file" | sed 's|^$|##|g' | tr '\n' " " | tr '##' "\n" >> Texto-unido.txt; done

د اوکرایډر سره میتود:
- موږ د اوکفیډر برنامه خلاصه کوو.
2- موږ د وسیلې - OCR انجنونو په کلیک کولو سره انجنی ترمیم کوو ، موږ د ایسټریک انجن غوره کوو او په ترمیم کلیک کوو ، او چیرې چې دا د انجن دلیلونه وایی ، موږ د دې لپاره سکریپټ بدل کوو:

$IMAGE $FILE -l spa -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

3- موږ یو عکس یا فولډر وارد کوو چیرې چې ډیری عکسونه شتون لري.
- موږ د پیژندنې په سند کلیک کوو ، یوځل چې سند وپیژندل شو ، تاسو کولی شئ په لاسي ډول وټاکئ چې د هغې کومې برخې به عکس یا متن وي.
the- د سند له صادرولو دمخه موږ د سمون - تدوین پا pageه باندې کلیک کوو ، موږ مطلوب پا selectه غوره کوو ، چې تر ټولو عام یې لیک (لیک) دی.
6- د سند د صادرولو لپاره موږ د فایل - صادراتو باندې کلیک کوو ، موږ د مطلوب محصول ب selectه غوره کوو ، که سند عکسونه ولري زه تاسو ته مشوره درکوم د اوډ یا html ب formatه وکاروئ ، که دا یوازې متن وي نو غوره ده چې د ساده متن (txt) ب useه وکاروئ .

دا دلته پای ته نه رسیږي ځکه چې ډیری فوتو کاپيانې شتون لري چې کیفیت یې مناسب ندي ، د دې ترمیم لپاره به موږ د جیمپ او راټول شوي فلټر وکاروو (دا پروسه ورو کیدی شي):
1- موږ عکس د جیمپ سره خلاصوو.
2- موږ د فلټرونو - تحلیلونو - ایمبولیس کولو باندې کلیک کوو ، موږ د نخشه نقشه بکس غوره کوو ، موږ د ایزمیت کچه ​​نږدې 162,25 ته لوړ کوو ، لوړوالی 88,73 او ژور ته 6 یا 3. موږ د 100٪ کیفیت سره عکس خوندي کوو که دا jpg وي ، په صادراتو کې - name.jpg.

په اختیاري ډول تاسو کولی شئ د رنګونو - کچو - آټو کلیک کولو سره د سپینې کچې تنظیم کړئ.


د مقالې مینځپانګه زموږ د اصولو سره سمون لري ایډیټیک اخلاق. د غلطۍ راپور ورکولو لپاره کلیک وکړئ دلته.