Sida loo OCR loo sameeyo PDF loona sahlo xulashada qoraalka iyo raadinta

Ka soo qaad in aad haysatid PDF oo la abuuray iyada oo la adeegsanayo qalabka wax lagu sawiro, ama in adiga laguu soo gudbiyey laakiin ay ku jirto macluumaadka qaab muuqaal ah. Nidaamka ay tahay inaan u soo gudbino PDF-ga aan jecel nahay waxaa loo yaqaan OCR: waa geedi socod si toos ah u tilmaamaya astaamo ama jilayaal alifbeeto gaar ah leh, oo laga soo qaaday sawir si loogu kaydiyo qaab xog ah oo aan kula fal-geli karno barnaamijka tifaftirka qoraalka ama wixii la mid ah.


pdfocr waa aalad fudud oo abuureysa PDF cusub oo leh lakab qoraal ah oo gundhig ah, taasoo u oggolaaneysa isticmaaleha inuu doorto qoraal oo uu kelmado ku dhex raadiyo, isaga oo aan beddelin muuqaalka ugu dambeeya ee PDF-ka.

Waa maxay pdfocr MA AHA:

Tani waxay shaqeysaa oo keliya haddii PDF ay ku jiraan macluumaadka qaab muuqaal ah; haddii aad ka dhoofisay PDF-ka OpenOffice, waxay horey u leedahay lakab qoraal ah oo gundhig ah, markaa nidaamkani waa mid aan loo baahnayn.

Sida loo rakibo pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-hel rakib pdfocr

Sida loo isticmaalo pdfocr:

Fur terminal, tag galka halka PDF-ka ah ee aad rabto inaad ka badaleyso uu ku yaalo, waxaadna gashaa waxyaabaha soo socda (adoo ku baddelaya input.pdf adoo wata PDF-ga aad rabto inaad ka badaleyso oo aad u soo saarto wax soo saarka.pdf magaca feylka cusub oo wata lakabka qoraalka gundhig ah)

pdfocr -i gelinta.pdf -o wax soo saarka.pdf

Sug bog kasta oo ka mid ah PDF-gaaga in lagu dhaqmo OCR iyo feylka ugu dambeeya ee wax laga beddelay oo la sameeyo. Tani waa inay qaadataa dhowr ilbiriqsi bog kasta, iyadoo kuxiran xalka PDF-gaaga.


Ka tag faalladaada

cinwaanka email aan la daabacin doonaa. Beeraha loo baahan yahay waxaa lagu calaamadeeyay la *

*

*

  1. Masuul ka ah xogta: Miguel Ángel Gatón
  2. Ujeedada xogta: Xakamaynta SPAM, maaraynta faallooyinka.
  3. Sharci: Oggolaanshahaaga
  4. Isgaarsiinta xogta: Xogta looma gudbin doono dhinacyada saddexaad marka laga reebo waajibaadka sharciga ah.
  5. Kaydinta xogta: Macluumaadka ay martigelisay Shabakadaha Occentus (EU)
  6. Xuquuqda: Waqti kasta oo aad xadidi karto, soo ceshan karto oo tirtiri karto macluumaadkaaga.

  1.   Rudolph Lara dijo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get rakib pdfocr
    Liiska xirmada aqrinta ... La dhammeeyay
    Abuuritaanka geed ku tiirsanaan
    Akhrinta macluumaadka xaaladda ... La qabtay
    E: Xirmada pdfocr lama helin
    rodolfo @ rodolfo-desktop: ~ $

  2.   Aynu adeegsanno Linux dijo

    Miyaad hubisay inaad ku dartay PPA u dhiganta?
    PPA-daani waxay u egtahay inay leedahay noocyo pdfocr ah oo loogu talagalay noocyadii hore ee Ubuntu. Ka fikir in qoraalkani horey u jiray dhowr bilood. Sikastaba, fikirku waa isku mid. Tag Launchpad oo raadi PPA oo ka kooban noocyo pdfocr ah oo loogu talagalay Maverick.
    Farxad! Bawlos.

  3.   jvare dijo

    Hagaag, waxay noqon doontaa arrin la tijaabiyo si loo arko sida ay u shaqeyso

  4.   Aynu adeegsanno Linux dijo

    Hore u soco! Noo soo sheeg haddii aad guuleysatay !! Haddii aysan shaqeynin waxaan sidoo kale isku dayi karnaa inaan ku caawinno! Farxad! Bawlos.

  5.   a01653 dijo

    Hello,
    Waxaan ku tijaabiyay barnaamijka pdf natiijaduna aad uma fiicna. Waxaan laqabsaday xirfadleyda Acrobat 8 ​​waxaanan raadinayey wax lamid ah. Acrobat waxay u gudbisaa yutiilitiyada faylasha si loo nadiifiyo loona toosiyo pdfs-ka la baaray oo markaa loo helo ilo fiican ocr-ka. Ma ogtahay haddii ay taasi jirto xalka tan.

    Mahadsanid!

  6.   Aynu adeegsanno Linux dijo

    Waad salaaman tahay! Waxaan maqlay agagaarka in Tesseract uu yahay furitaanka ugu fiican ee OCR. Ma aqaano inay fiicnaan doonto. Sidoo kale, waa inaad gacmahaaga xoogaa wasakh ah ka dhigtaa si ay u shaqeyso. Waa kuwan tilmaamaha qaarkood. Haddii aad guuleysato, fadlan ii soo sheeg maxaa yeelay, haddii ay shaqeyso, waxay u eg tahay inay ku dambayn doonto inuu noqdo boosteejo.

    Marka hore rakibi baakadaha "tesseract 2.03-4" iyo "imagemagick" adoo adeegsanaya Synaptic, "xsane2tess" oo ka socda "http://download.tuxfamily.org/guadausers/guadaV4/".

    Kadib ku abuuri galka tmp-ga: / guriga / magacaaga / tmp

    Kadib fur Xsane si aad uhesho, Rabitaanada -> Qaabeynta -> tab OCR oo buuxi waxyaabaha soo socda:

    Amarka OCR -> xsane2tess -l spa
    Ikhtiyaarka feyl galinta -> -i
    Ikhtiyaarka feylka wax soo saarka -> -o
    Ikhtiyaarka wax soo saarka -fd interface -> -x

    Qaababaynta Xsane ee qaybta "keydinta" qaybta ay ku qoran tahay tusaha kumeelgaarka ah, hubi inuu jiro galka "tmp" ee aad ku abuurtay "/ home / yourusername"

    Waxaan sidoo kale kaaga tagayaa bog faahfaahin ah oo ku saabsan sida loo OCR ku leeyahay Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Aynu adeegsanno Linux dijo

    Hab kale oo aan ku ogaaday x waxaa jira kuwan soo socda:

    Haddii loo maleeyo in iskaanka uu horeyba ugu xirnaa isla markaana uu aqoonsaday nidaamka

    1. Waxaan furayaa Nidaam> Maamul> Maareeyaha Xirmooyinka Iskuxiraha (GNOME)

    2. Raadinta iyo qaabdhismeedka si loo rakibo tesseract-ocr-spa (isbaanishka lagu baaro) iyo gscan2pdf

    3. Si aan u iskaan u furo ayaan u furaa Codsiyada> Sawirada> gscan2pdf

    Oo diyaar.

  8.   Dhibaato dijo

    Haye saaxiib, aad baad u mahadsan tahay, runtu waxay tahay in tesseract waa aalad fiican, laakiin aad bay u xadidan tahay marka la barbar dhigo buugaagta leh "dhibka" leh iskaanka. Dhanka kale, softiweerkani si fudud ayuu ula qabsadaa ... 😀

  9.   Juan Anez dijo

    Nidaamka digitation-ka Sawirada, faylasha PDF-A waa la beddelayaa, kuwani waa inay noqdaan OCRed. Sidee ugu nugul tahay natiijada iskaanka Madoow iyo Caddaan ama Cagaar? Maxaa lagula talinayaa?