Kuidas optimeerida PDF-faili ja lubada teksti valimine ja otsimine

Oletame, et teil on skanneriga loodud PDF või mis edastati teile, kuid see sisaldab teavet pildi kujul. Kutsutakse protseduuri, millele peame oma armastatud PDF-i esitama OCR: protsess, mis tuvastab automaatselt teatud tähestikku kuuluvad sümbolid või märgid, alates pildist kuni selle salvestamiseni andmete kujul, millega saame tekstiredigeerimisprogrammi vms kaudu suhelda.


pdfocr on lihtne tööriist, mis loob sisseehitatud tekstikihiga uue PDF-faili, võimaldades kasutajal teksti valida ja selles sõnu otsida, muutmata PDF-i lõplikku välimust.

Milleks pdfocr EI OLE:

See töötab ainult siis, kui PDF sisaldab teavet pildi kujul; kui eksportisite PDF-i OpenOffice'ist, on sellel juba varjatud tekstikiht, seega pole see protseduur vajalik.

Kuidas installida pdfocr:

sudo add-apt-hoidla ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Kuidas pdfocr-i kasutada:

Avage terminal, minge kataloogi, kus asub teisendatav PDF, ja sisestage järgmine tekst (sisestades sisestatava.pdf teisendatava PDF-iga ja väljundi.pdf asendades manustatud tekstikihiga uue faili nime)

pdfocr -i sisend.pdf -o väljund.pdf

Oodake, kuni kõik teie PDF-i lehed on OCR-i harjutatud ja lõplik muudetud fail on loodud. See peaks võtma paar sekundit lehe kohta, sõltuvalt teie PDF-i eraldusvõimest.


Jäta oma kommentaar

Sinu e-postiaadressi ei avaldata. Kohustuslikud väljad on tähistatud *

*

*

  1. Andmete eest vastutab: Miguel Ángel Gatón
  2. Andmete eesmärk: Rämpsposti kontrollimine, kommentaaride haldamine.
  3. Seadustamine: teie nõusolek
  4. Andmete edastamine: andmeid ei edastata kolmandatele isikutele, välja arvatud juriidilise kohustuse alusel.
  5. Andmete salvestamine: andmebaas, mida haldab Occentus Networks (EL)
  6. Õigused: igal ajal saate oma teavet piirata, taastada ja kustutada.

  1.   Rudolf Lara DIJO

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Pakettide loendi lugemine ... Valmis
    Sõltuvuspuu loomine
    Olekuteabe lugemine ... Valmis
    E: pdfocri paketti ei leitud
    rodolfo @ rodolfo-desktop: ~ $

  2.   Kasutame Linuxi DIJO

    Kas lisasite kindlasti vastava PPA?
    Sellel PPA-l on tõenäoliselt vanemate Ubuntu versioonide pdfocr-i versioonid. Mõelge, et see postitus on juba mitu kuud vana. Igatahes on idee sama. Minge Launchpadisse ja otsige PPA-d, mis sisaldab Mavericki pdfocri versioone.
    Terviseks! Paul.

  3.   jvare DIJO

    Noh, see on selle testimise küsimus, et näha, kuidas see töötab

  4.   Kasutame Linuxi DIJO

    Lase käia! Andke meile teada, kui teil õnnestus !! Kui see ei toimi, võime proovida ka teid aidata! Terviseks! Paul.

  5.   a01653 DIJO

    Tere,
    Olen programmi PDF-is testinud ja tulemus pole eriti hea. Olen professionaalse akrobaat 8-ga harjunud ja otsisin midagi sarnast. Acrobat edastab failidele utiliidid, et puhastada ja sirgendada skannitud pdf-faile ning saada seeläbi parem ocr-i allikas. Kas teate, kas sellele on lahendus.

    tervitused

  6.   Kasutame Linuxi DIJO

    Tere! Olen umbes kuulnud, et Tesseract on parim avatud lähtekoodiga OCR. Ma ei tea, kas see saab hea olema. Samuti peate oma käed natuke määrduma, et see toimiks. Siin on mõned juhised. Kui teil õnnestub, palun andke mulle teada, sest kui see töötab, saab sellest tõenäoliselt postitus.

    Kõigepealt installige paketid "tesseract 2.03-4" ja "imagemagick", kasutades rakendust Synaptic, "xsane2tess" saidilt "http://download.tuxfamily.org/guadausers/guadaV4/".

    Seejärel looge tmp kaust kataloogis: / home / sinu kasutajanimi / tmp

    Seejärel avage selle konfigureerimiseks Xsane, menüü Eelistused -> Konfiguratsioon -> OCR ja täitke järgmine:

    OCR-käsk -> xsane2tess -l spa
    Sisendfaili valik -> -i
    Väljundfaili valik -> -o
    Väljundi valik -fd liides -> -x

    Xsane'i konfiguratsioonides vahekaardi "Salvesta" osas, kus on kirjas ajutine kataloog, veenduge, et seal oleks kaust "tmp", mille lõite kataloogis "/ home / yourusername"

    Jätan teile ka lehe, kus on üksikasjad selle kohta, kuidas Ubuntu OCR-i teha: https://help.ubuntu.com/community/OCR

  7.   Kasutame Linuxi DIJO

    Teine meetod, mille avastasin x, on järgmine:

    Eeldades, et skanner on süsteem juba ühendatud ja tunnustatud

    1. Avan Süsteem> Haldus> Synaptic Package Manager (GNOME'is)

    2. Otsige ja raamistage tesseract-ocr-spa (hispaania keeles skannimiseks) ja gscan2pdf installimiseks

    3. Skannimiseks avan rakendused> Graafika> gscan2pdf

    Ja valmis.

  8.   Trubaduur DIJO

    Hei sõber, suur aitäh, tõde on see, et tesseract on hea tööriist, kuid võrreldes "probleemse" skannimisega raamatutega väga piiratud. Teiselt poolt kohandub see tarkvara kergemini ... 😀

  9.   Juan Anez DIJO

    Piltide digiteerimise käigus teisendatakse PDF-A faile, need peavad olema OCR-vormingus. Kui tundlik on tulemuse suhtes mustvalge või halltoonides skaneerimine? Mida soovitatakse?