Ka soo qaad in aad haysatid PDF oo la abuuray iyada oo la adeegsanayo qalabka wax lagu sawiro, ama in adiga laguu soo gudbiyey laakiin ay ku jirto macluumaadka qaab muuqaal ah. Nidaamka ay tahay inaan u soo gudbino PDF-ga aan jecel nahay waxaa loo yaqaan OCR: waa geedi socod si toos ah u tilmaamaya astaamo ama jilayaal alifbeeto gaar ah leh, oo laga soo qaaday sawir si loogu kaydiyo qaab xog ah oo aan kula fal-geli karno barnaamijka tifaftirka qoraalka ama wixii la mid ah. |
pdfocr waa aalad fudud oo abuureysa PDF cusub oo leh lakab qoraal ah oo gundhig ah, taasoo u oggolaaneysa isticmaaleha inuu doorto qoraal oo uu kelmado ku dhex raadiyo, isaga oo aan beddelin muuqaalka ugu dambeeya ee PDF-ka.
Waa maxay pdfocr MA AHA:
Tani waxay shaqeysaa oo keliya haddii PDF ay ku jiraan macluumaadka qaab muuqaal ah; haddii aad ka dhoofisay PDF-ka OpenOffice, waxay horey u leedahay lakab qoraal ah oo gundhig ah, markaa nidaamkani waa mid aan loo baahnayn.
Sida loo rakibo pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-hel rakib pdfocr
Sida loo isticmaalo pdfocr:
Fur terminal, tag galka halka PDF-ka ah ee aad rabto inaad ka badaleyso uu ku yaalo, waxaadna gashaa waxyaabaha soo socda (adoo ku baddelaya input.pdf adoo wata PDF-ga aad rabto inaad ka badaleyso oo aad u soo saarto wax soo saarka.pdf magaca feylka cusub oo wata lakabka qoraalka gundhig ah)
pdfocr -i gelinta.pdf -o wax soo saarka.pdf
Sug bog kasta oo ka mid ah PDF-gaaga in lagu dhaqmo OCR iyo feylka ugu dambeeya ee wax laga beddelay oo la sameeyo. Tani waa inay qaadataa dhowr ilbiriqsi bog kasta, iyadoo kuxiran xalka PDF-gaaga.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get rakib pdfocr
Liiska xirmada aqrinta ... La dhammeeyay
Abuuritaanka geed ku tiirsanaan
Akhrinta macluumaadka xaaladda ... La qabtay
E: Xirmada pdfocr lama helin
rodolfo @ rodolfo-desktop: ~ $
Miyaad hubisay inaad ku dartay PPA u dhiganta?
PPA-daani waxay u egtahay inay leedahay noocyo pdfocr ah oo loogu talagalay noocyadii hore ee Ubuntu. Ka fikir in qoraalkani horey u jiray dhowr bilood. Sikastaba, fikirku waa isku mid. Tag Launchpad oo raadi PPA oo ka kooban noocyo pdfocr ah oo loogu talagalay Maverick.
Farxad! Bawlos.
Hagaag, waxay noqon doontaa arrin la tijaabiyo si loo arko sida ay u shaqeyso
Hore u soco! Noo soo sheeg haddii aad guuleysatay !! Haddii aysan shaqeynin waxaan sidoo kale isku dayi karnaa inaan ku caawinno! Farxad! Bawlos.
Hello,
Waxaan ku tijaabiyay barnaamijka pdf natiijaduna aad uma fiicna. Waxaan laqabsaday xirfadleyda Acrobat 8 waxaanan raadinayey wax lamid ah. Acrobat waxay u gudbisaa yutiilitiyada faylasha si loo nadiifiyo loona toosiyo pdfs-ka la baaray oo markaa loo helo ilo fiican ocr-ka. Ma ogtahay haddii ay taasi jirto xalka tan.
Mahadsanid!
Waad salaaman tahay! Waxaan maqlay agagaarka in Tesseract uu yahay furitaanka ugu fiican ee OCR. Ma aqaano inay fiicnaan doonto. Sidoo kale, waa inaad gacmahaaga xoogaa wasakh ah ka dhigtaa si ay u shaqeyso. Waa kuwan tilmaamaha qaarkood. Haddii aad guuleysato, fadlan ii soo sheeg maxaa yeelay, haddii ay shaqeyso, waxay u eg tahay inay ku dambayn doonto inuu noqdo boosteejo.
Marka hore rakibi baakadaha "tesseract 2.03-4" iyo "imagemagick" adoo adeegsanaya Synaptic, "xsane2tess" oo ka socda "http://download.tuxfamily.org/guadausers/guadaV4/".
Kadib ku abuuri galka tmp-ga: / guriga / magacaaga / tmp
Kadib fur Xsane si aad uhesho, Rabitaanada -> Qaabeynta -> tab OCR oo buuxi waxyaabaha soo socda:
Amarka OCR -> xsane2tess -l spa
Ikhtiyaarka feyl galinta -> -i
Ikhtiyaarka feylka wax soo saarka -> -o
Ikhtiyaarka wax soo saarka -fd interface -> -x
Qaababaynta Xsane ee qaybta "keydinta" qaybta ay ku qoran tahay tusaha kumeelgaarka ah, hubi inuu jiro galka "tmp" ee aad ku abuurtay "/ home / yourusername"
Waxaan sidoo kale kaaga tagayaa bog faahfaahin ah oo ku saabsan sida loo OCR ku leeyahay Ubuntu: https://help.ubuntu.com/community/OCR
Hab kale oo aan ku ogaaday x waxaa jira kuwan soo socda:
Haddii loo maleeyo in iskaanka uu horeyba ugu xirnaa isla markaana uu aqoonsaday nidaamka
1. Waxaan furayaa Nidaam> Maamul> Maareeyaha Xirmooyinka Iskuxiraha (GNOME)
2. Raadinta iyo qaabdhismeedka si loo rakibo tesseract-ocr-spa (isbaanishka lagu baaro) iyo gscan2pdf
3. Si aan u iskaan u furo ayaan u furaa Codsiyada> Sawirada> gscan2pdf
Oo diyaar.
Haye saaxiib, aad baad u mahadsan tahay, runtu waxay tahay in tesseract waa aalad fiican, laakiin aad bay u xadidan tahay marka la barbar dhigo buugaagta leh "dhibka" leh iskaanka. Dhanka kale, softiweerkani si fudud ayuu ula qabsadaa ... 😀
Nidaamka digitation-ka Sawirada, faylasha PDF-A waa la beddelayaa, kuwani waa inay noqdaan OCRed. Sidee ugu nugul tahay natiijada iskaanka Madoow iyo Caddaan ama Cagaar? Maxaa lagula talinayaa?