Kaip OCR PDF ir įgalinti teksto pasirinkimą ir paiešką

Tarkime, kad turite PDF, kuris buvo sukurtas naudojant skaitytuvą, arba kad jis buvo jums perduotas, tačiau jame yra informacija atvaizdo pavidalu. Vadinama procedūra, kuriai turime pateikti savo mylimą PDF OCR: procesas, automatiškai identifikuojantis simbolius ar simbolius, priklausančius tam tikrai abėcėlei, nuo paveikslėlio iki jo saugojimo duomenų pavidalu, su kuriais galime bendrauti per teksto redagavimo programą ar panašiai.


pdfocr yra paprastas įrankis, sukuriantis naują PDF failą su įdėtu teksto sluoksniu, leidžiantis vartotojui pasirinkti tekstą ir ieškoti jame žodžių, nekeičiant galutinės PDF išvaizdos.

Kam neskirta pdfocr:

Tai naudinga tik tuo atveju, jei PDF faile yra informacija paveikslėlyje; jei eksportavote PDF failą iš „OpenOffice“, jame jau yra įdėtas teksto sluoksnis, todėl ši procedūra nereikalinga.

Kaip įdiegti pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get įdiegti pdfocr

Kaip naudoti pdfocr:

Atidarykite terminalą, eikite į katalogą, kuriame yra norimas konvertuoti PDF failas, ir įveskite šiuos duomenis (pakeitę input.pdf PDF, kurį norite konvertuoti, ir output.pdf naujo failo pavadinimu su įdėtuoju teksto sluoksniu )

pdfocr -i input.pdf -o output.pdf

Palaukite, kol kiekvienas jūsų PDF puslapis bus praktikuojamas OCR ir bus sukurtas galutinis modifikuotas failas. Tai turėtų užtrukti kelias sekundes viename puslapyje, atsižvelgiant į jūsų PDF skiriamąją gebą.


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Atsakingas už duomenis: Miguel Ángel Gatón
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.

  1.   Rudolfas Lara sakė

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Skaitomas paketų sąrašas ... Atlikta
    Kuriamas priklausomybės medis
    Skaitoma būsenos informacija ... Atlikta
    E: Nepavyko rasti pdfocr paketo
    rodolfo @ rodolfo-desktop: ~ $

  2.   Panaudokime „Linux“ sakė

    Ar būtinai pridėjote atitinkamą APS?
    Ši PPA greičiausiai turi senesnių „Ubuntu“ versijų pdfocr versijas. Pagalvokite, kad šiam įrašui jau keli mėnesiai. Šiaip ar taip, idėja ta pati. Eikite į „Launchpad“ ir ieškokite PPA, kuriame yra „Maverick“ pdfocr versijos.
    Cheers! Paulius.

  3.   jvare sakė

    Na, reikės išbandyti, ar jis veikia

  4.   Panaudokime „Linux“ sakė

    Pirmyn! Praneškite mums, ar jums pasisekė !! Jei tai neveikia, mes taip pat galime pabandyti jums padėti! Cheers! Paulius.

  5.   a01653 sakė

    Sveiki,
    Aš išbandžiau programą pdf formatu, o rezultatas nėra labai geras. Aš pripratęs prie profesionalaus akrobato 8 ir ieškojau kažko panašaus. „Acrobat“ persiunčia failus į rinkmenas, kad išvalytų ir ištiesintų nuskaitytus pdf failus ir taip gautų geresnį šaltinį. Jūs žinote, ar tam yra sprendimas.

    Sveikinimas

  6.   Panaudokime „Linux“ sakė

    Sveiki! Girdėjau, kad „Tesseract“ yra geriausias atvirojo kodo OCR. Nežinau, ar bus gerai. Be to, turite šiek tiek susitepti rankas, kad tai veiktų. Štai keletas instrukcijų. Jei jums pasiseks, prašau pranešti man, nes jei tai pavyks, greičiausiai tai taps žinute.

    Pirmiausia įdiekite paketus „tesseract 2.03-4“ ir „imagemagick“ naudodami „Synaptic“, „xsane2tess“ iš „http://download.tuxfamily.org/guadausers/guadaV4/“.

    Tada sukurkite tmp aplanką: / home / jūsų vartotojo vardas / tmp

    Tada atidarykite „Xsane“, kad sukonfigūruotumėte jį, skirtuką Parinktys–> Konfigūracija–> OCR ir užpildykite:

    OCR komanda -> xsane2tess -l spa
    Įvesties failo parinktis -> -i
    Išvesties failo parinktis -> -o
    Išvesties parinktis -fd sąsaja -> -x

    Xsane konfigūracijose, esančioje skirtuko „išsaugoti“ dalyje, kur sakoma laikinas katalogas, įsitikinkite, kad yra aplankas „tmp“, kurį sukūrėte aplanke „/ home / yourusername“

    Aš taip pat palieku jums puslapį su išsamia informacija, kaip atlikti OCR „Ubuntu“: https://help.ubuntu.com/community/OCR

  7.   Panaudokime „Linux“ sakė

    Kitas metodas, kurį radau x, yra toks:

    Darant prielaidą, kad skaitytuvą sistema jau prijungė ir atpažino

    1. Atidarau „System> Administration“> „Synaptic Package Manager“ (GNOME)

    2. Aš ieškau ir planuoju įdiegti „tesseract-ocr-spa“ (nuskaityti ispanų kalba) ir gscan2pdf

    3. Norėdami nuskaityti, atidarau Programos> Grafika> gscan2pdf

    Ir pasiruošę.

  8.   Trubadūras sakė

    Ei, drauge, labai ačiū, tiesa ta, kad tesseract yra gera priemonė, tačiau labai ribota, palyginti su knygomis, kuriose yra „probleminis“ nuskaitymas. Kita vertus, ši programinė įranga lengviau prisitaiko ... 😀

  9.   Juanas Anezas sakė

    Skaitmeninant vaizdus, ​​PDF-A failai yra konvertuojami, jie turi būti OCR. Kiek jautriai rezultatui nuskaitoma nespalvotai arba pilkai? Kas rekomenduojama?