Tarkime, kad turite PDF, kuris buvo sukurtas naudojant skaitytuvą, arba kad jis buvo jums perduotas, tačiau jame yra informacija atvaizdo pavidalu. Vadinama procedūra, kuriai turime pateikti savo mylimą PDF OCR: procesas, automatiškai identifikuojantis simbolius ar simbolius, priklausančius tam tikrai abėcėlei, nuo paveikslėlio iki jo saugojimo duomenų pavidalu, su kuriais galime bendrauti per teksto redagavimo programą ar panašiai. |
pdfocr yra paprastas įrankis, sukuriantis naują PDF failą su įdėtu teksto sluoksniu, leidžiantis vartotojui pasirinkti tekstą ir ieškoti jame žodžių, nekeičiant galutinės PDF išvaizdos.
Kam neskirta pdfocr:
Tai naudinga tik tuo atveju, jei PDF faile yra informacija paveikslėlyje; jei eksportavote PDF failą iš „OpenOffice“, jame jau yra įdėtas teksto sluoksnis, todėl ši procedūra nereikalinga.
Kaip įdiegti pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get įdiegti pdfocr
Kaip naudoti pdfocr:
Atidarykite terminalą, eikite į katalogą, kuriame yra norimas konvertuoti PDF failas, ir įveskite šiuos duomenis (pakeitę input.pdf PDF, kurį norite konvertuoti, ir output.pdf naujo failo pavadinimu su įdėtuoju teksto sluoksniu )
pdfocr -i input.pdf -o output.pdf
Palaukite, kol kiekvienas jūsų PDF puslapis bus praktikuojamas OCR ir bus sukurtas galutinis modifikuotas failas. Tai turėtų užtrukti kelias sekundes viename puslapyje, atsižvelgiant į jūsų PDF skiriamąją gebą.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Skaitomas paketų sąrašas ... Atlikta
Kuriamas priklausomybės medis
Skaitoma būsenos informacija ... Atlikta
E: Nepavyko rasti pdfocr paketo
rodolfo @ rodolfo-desktop: ~ $
Ar būtinai pridėjote atitinkamą APS?
Ši PPA greičiausiai turi senesnių „Ubuntu“ versijų pdfocr versijas. Pagalvokite, kad šiam įrašui jau keli mėnesiai. Šiaip ar taip, idėja ta pati. Eikite į „Launchpad“ ir ieškokite PPA, kuriame yra „Maverick“ pdfocr versijos.
Cheers! Paulius.
Na, reikės išbandyti, ar jis veikia
Pirmyn! Praneškite mums, ar jums pasisekė !! Jei tai neveikia, mes taip pat galime pabandyti jums padėti! Cheers! Paulius.
Sveiki,
Aš išbandžiau programą pdf formatu, o rezultatas nėra labai geras. Aš pripratęs prie profesionalaus akrobato 8 ir ieškojau kažko panašaus. „Acrobat“ persiunčia failus į rinkmenas, kad išvalytų ir ištiesintų nuskaitytus pdf failus ir taip gautų geresnį šaltinį. Jūs žinote, ar tam yra sprendimas.
Sveikinimas
Sveiki! Girdėjau, kad „Tesseract“ yra geriausias atvirojo kodo OCR. Nežinau, ar bus gerai. Be to, turite šiek tiek susitepti rankas, kad tai veiktų. Štai keletas instrukcijų. Jei jums pasiseks, prašau pranešti man, nes jei tai pavyks, greičiausiai tai taps žinute.
Pirmiausia įdiekite paketus „tesseract 2.03-4“ ir „imagemagick“ naudodami „Synaptic“, „xsane2tess“ iš „http://download.tuxfamily.org/guadausers/guadaV4/“.
Tada sukurkite tmp aplanką: / home / jūsų vartotojo vardas / tmp
Tada atidarykite „Xsane“, kad sukonfigūruotumėte jį, skirtuką Parinktys–> Konfigūracija–> OCR ir užpildykite:
OCR komanda -> xsane2tess -l spa
Įvesties failo parinktis -> -i
Išvesties failo parinktis -> -o
Išvesties parinktis -fd sąsaja -> -x
Xsane konfigūracijose, esančioje skirtuko „išsaugoti“ dalyje, kur sakoma laikinas katalogas, įsitikinkite, kad yra aplankas „tmp“, kurį sukūrėte aplanke „/ home / yourusername“
Aš taip pat palieku jums puslapį su išsamia informacija, kaip atlikti OCR „Ubuntu“: https://help.ubuntu.com/community/OCR
Kitas metodas, kurį radau x, yra toks:
Darant prielaidą, kad skaitytuvą sistema jau prijungė ir atpažino
1. Atidarau „System> Administration“> „Synaptic Package Manager“ (GNOME)
2. Aš ieškau ir planuoju įdiegti „tesseract-ocr-spa“ (nuskaityti ispanų kalba) ir gscan2pdf
3. Norėdami nuskaityti, atidarau Programos> Grafika> gscan2pdf
Ir pasiruošę.
Ei, drauge, labai ačiū, tiesa ta, kad tesseract yra gera priemonė, tačiau labai ribota, palyginti su knygomis, kuriose yra „probleminis“ nuskaitymas. Kita vertus, ši programinė įranga lengviau prisitaiko ... 😀
Skaitmeninant vaizdus, PDF-A failai yra konvertuojami, jie turi būti OCR. Kiek jautriai rezultatui nuskaitoma nespalvotai arba pilkai? Kas rekomenduojama?