Kaip atlikti OCR PDF ir įjungti teksto pasirinkimą bei paiešką

Kaip OCR PDF ir įgalinti teksto pasirinkimą ir paiešką

Tarkime, kad turite PDF, kuris buvo sukurtas naudojant skaitytuvą, arba kad jis buvo jums perduotas, tačiau jame yra informacija atvaizdo pavidalu. Vadinama procedūra, kuriai turime pateikti savo mylimą PDF OCR: procesas, automatiškai identifikuojantis simbolius ar simbolius, priklausančius tam tikrai abėcėlei, nuo paveikslėlio iki jo saugojimo duomenų pavidalu, su kuriais galime bendrauti per teksto redagavimo programą ar panašiai.

pdfocr yra paprastas įrankis, sukuriantis naują PDF failą su įdėtu teksto sluoksniu, leidžiantis vartotojui pasirinkti tekstą ir ieškoti jame žodžių, nekeičiant galutinės PDF išvaizdos.

Kam neskirta pdfocr:

Tai naudinga tik tuo atveju, jei PDF faile yra informacija paveikslėlyje; jei eksportavote PDF failą iš „OpenOffice“, jame jau yra įdėtas teksto sluoksnis, todėl ši procedūra nereikalinga.

Kaip įdiegti pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get įdiegti pdfocr

Kaip naudoti pdfocr:

Atidarykite terminalą, eikite į katalogą, kuriame yra norimas konvertuoti PDF failas, ir įveskite šiuos duomenis (pakeitę input.pdf PDF, kurį norite konvertuoti, ir output.pdf naujo failo pavadinimu su įdėtuoju teksto sluoksniu )

pdfocr -i input.pdf -o output.pdf

Palaukite, kol kiekvienas jūsų PDF puslapis bus praktikuojamas OCR ir bus sukurtas galutinis modifikuotas failas. Tai turėtų užtrukti kelias sekundes viename puslapyje, atsižvelgiant į jūsų PDF skiriamąją gebą.

Palikite komentarą Atšaukti atsakymą

Rudolfas Lara sakė
prieš 11 metai

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Skaitomas paketų sąrašas ... Atlikta
Kuriamas priklausomybės medis
Skaitoma būsenos informacija ... Atlikta
E: Nepavyko rasti pdfocr paketo
rodolfo @ rodolfo-desktop: ~ $

Atsakymas Rodolfo Lara
Panaudokime „Linux“ sakė
prieš 11 metai

Ar būtinai pridėjote atitinkamą APS?
Ši PPA greičiausiai turi senesnių „Ubuntu“ versijų pdfocr versijas. Pagalvokite, kad šiam įrašui jau keli mėnesiai. Šiaip ar taip, idėja ta pati. Eikite į „Launchpad“ ir ieškokite PPA, kuriame yra „Maverick“ pdfocr versijos.
Cheers! Paulius.

Atsakykite į „Naudokime Linux“
jvare sakė
prieš 11 metai

Na, reikės išbandyti, ar jis veikia

Atsakyti Jvare
Panaudokime „Linux“ sakė
prieš 11 metai

Pirmyn! Praneškite mums, ar jums pasisekė !! Jei tai neveikia, mes taip pat galime pabandyti jums padėti! Cheers! Paulius.

Atsakykite į „Naudokime Linux“
a01653 sakė
prieš 11 metai

Sveiki,
Aš išbandžiau programą pdf formatu, o rezultatas nėra labai geras. Aš pripratęs prie profesionalaus akrobato 8 ir ieškojau kažko panašaus. „Acrobat“ persiunčia failus į rinkmenas, kad išvalytų ir ištiesintų nuskaitytus pdf failus ir taip gautų geresnį šaltinį. Jūs žinote, ar tam yra sprendimas.

Sveikinimas

Atsakymas į a01653
Panaudokime „Linux“ sakė
prieš 11 metai

Sveiki! Girdėjau, kad „Tesseract“ yra geriausias atvirojo kodo OCR. Nežinau, ar bus gerai. Be to, turite šiek tiek susitepti rankas, kad tai veiktų. Štai keletas instrukcijų. Jei jums pasiseks, prašau pranešti man, nes jei tai pavyks, greičiausiai tai taps žinute.

Pirmiausia įdiekite paketus „tesseract 2.03-4“ ir „imagemagick“ naudodami „Synaptic“, „xsane2tess“ iš „http://download.tuxfamily.org/guadausers/guadaV4/“.

Tada sukurkite tmp aplanką: / home / jūsų vartotojo vardas / tmp

Tada atidarykite „Xsane“, kad sukonfigūruotumėte jį, skirtuką Parinktys–> Konfigūracija–> OCR ir užpildykite:

OCR komanda -> xsane2tess -l spa
Įvesties failo parinktis -> -i
Išvesties failo parinktis -> -o
Išvesties parinktis -fd sąsaja -> -x

Xsane konfigūracijose, esančioje skirtuko „išsaugoti“ dalyje, kur sakoma laikinas katalogas, įsitikinkite, kad yra aplankas „tmp“, kurį sukūrėte aplanke „/ home / yourusername“

Aš taip pat palieku jums puslapį su išsamia informacija, kaip atlikti OCR „Ubuntu“: https://help.ubuntu.com/community/OCR

Atsakykite į „Naudokime Linux“
Panaudokime „Linux“ sakė
prieš 11 metai

Kitas metodas, kurį radau x, yra toks:

Darant prielaidą, kad skaitytuvą sistema jau prijungė ir atpažino

1. Atidarau „System> Administration“> „Synaptic Package Manager“ (GNOME)

2. Aš ieškau ir planuoju įdiegti „tesseract-ocr-spa“ (nuskaityti ispanų kalba) ir gscan2pdf

3. Norėdami nuskaityti, atidarau Programos> Grafika> gscan2pdf

Ir pasiruošę.

Atsakykite į „Naudokime Linux“
Trubadūras sakė
prieš 10 metai

Ei, drauge, labai ačiū, tiesa ta, kad tesseract yra gera priemonė, tačiau labai ribota, palyginti su knygomis, kuriose yra „probleminis“ nuskaitymas. Kita vertus, ši programinė įranga lengviau prisitaiko ... 😀

Atsakyti Trovadordebarro
Juanas Anezas sakė
prieš 10 metai

Skaitmeninant vaizdus, PDF-A failai yra konvertuojami, jie turi būti OCR. Kiek jautriai rezultatui nuskaitoma nespalvotai arba pilkai? Kas rekomenduojama?

Atsakyti į juan anez