Cómo aplicar OCR a un PDF y habilitar la selección y búsqueda de texto

Kuidas optimeerida PDF-faili ja lubada teksti valimine ja otsimine

Oletame, et teil on skanneriga loodud PDF või mis edastati teile, kuid see sisaldab teavet pildi kujul. Kutsutakse protseduuri, millele peame oma armastatud PDF-i esitama OCR: protsess, mis tuvastab automaatselt teatud tähestikku kuuluvad sümbolid või märgid, alates pildist kuni selle salvestamiseni andmete kujul, millega saame tekstiredigeerimisprogrammi vms kaudu suhelda.

pdfocr on lihtne tööriist, mis loob sisseehitatud tekstikihiga uue PDF-faili, võimaldades kasutajal teksti valida ja selles sõnu otsida, muutmata PDF-i lõplikku välimust.

Milleks pdfocr EI OLE:

See töötab ainult siis, kui PDF sisaldab teavet pildi kujul; kui eksportisite PDF-i OpenOffice'ist, on sellel juba varjatud tekstikiht, seega pole see protseduur vajalik.

Kuidas installida pdfocr:

sudo add-apt-hoidla ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Kuidas pdfocr-i kasutada:

Avage terminal, minge kataloogi, kus asub teisendatav PDF, ja sisestage järgmine tekst (sisestades sisestatava.pdf teisendatava PDF-iga ja väljundi.pdf asendades manustatud tekstikihiga uue faili nime)

pdfocr -i sisend.pdf -o väljund.pdf

Oodake, kuni kõik teie PDF-i lehed on OCR-i harjutatud ja lõplik muudetud fail on loodud. See peaks võtma paar sekundit lehe kohta, sõltuvalt teie PDF-i eraldusvõimest.

Jäta oma kommentaar Tühista vastus

Rudolf Lara DIJO
tagasi 11 aastat

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Pakettide loendi lugemine ... Valmis
Sõltuvuspuu loomine
Olekuteabe lugemine ... Valmis
E: pdfocri paketti ei leitud
rodolfo @ rodolfo-desktop: ~ $

Vasta Rodolfo Larale
Kasutame Linuxi DIJO
tagasi 11 aastat

Kas lisasite kindlasti vastava PPA?
Sellel PPA-l on tõenäoliselt vanemate Ubuntu versioonide pdfocr-i versioonid. Mõelge, et see postitus on juba mitu kuud vana. Igatahes on idee sama. Minge Launchpadisse ja otsige PPA-d, mis sisaldab Mavericki pdfocri versioone.
Terviseks! Paul.

Vastake rakendusele Let's Use Linux
jvare DIJO
tagasi 11 aastat

Noh, see on selle testimise küsimus, et näha, kuidas see töötab

Vasta Jvarele
Kasutame Linuxi DIJO
tagasi 11 aastat

Lase käia! Andke meile teada, kui teil õnnestus !! Kui see ei toimi, võime proovida ka teid aidata! Terviseks! Paul.

Vastake rakendusele Let's Use Linux
a01653 DIJO
tagasi 11 aastat

Tere,
Olen programmi PDF-is testinud ja tulemus pole eriti hea. Olen professionaalse akrobaat 8-ga harjunud ja otsisin midagi sarnast. Acrobat edastab failidele utiliidid, et puhastada ja sirgendada skannitud pdf-faile ning saada seeläbi parem ocr-i allikas. Kas teate, kas sellele on lahendus.

tervitused

Vasta aadressile a01653
Kasutame Linuxi DIJO
tagasi 11 aastat

Tere! Olen umbes kuulnud, et Tesseract on parim avatud lähtekoodiga OCR. Ma ei tea, kas see saab hea olema. Samuti peate oma käed natuke määrduma, et see toimiks. Siin on mõned juhised. Kui teil õnnestub, palun andke mulle teada, sest kui see töötab, saab sellest tõenäoliselt postitus.

Kõigepealt installige paketid "tesseract 2.03-4" ja "imagemagick", kasutades rakendust Synaptic, "xsane2tess" saidilt "http://download.tuxfamily.org/guadausers/guadaV4/".

Seejärel looge tmp kaust kataloogis: / home / sinu kasutajanimi / tmp

Seejärel avage selle konfigureerimiseks Xsane, menüü Eelistused -> Konfiguratsioon -> OCR ja täitke järgmine:

OCR-käsk -> xsane2tess -l spa
Sisendfaili valik -> -i
Väljundfaili valik -> -o
Väljundi valik -fd liides -> -x

Xsane'i konfiguratsioonides vahekaardi "Salvesta" osas, kus on kirjas ajutine kataloog, veenduge, et seal oleks kaust "tmp", mille lõite kataloogis "/ home / yourusername"

Jätan teile ka lehe, kus on üksikasjad selle kohta, kuidas Ubuntu OCR-i teha: https://help.ubuntu.com/community/OCR

Vastake rakendusele Let's Use Linux
Kasutame Linuxi DIJO
tagasi 11 aastat

Teine meetod, mille avastasin x, on järgmine:

Eeldades, et skanner on süsteem juba ühendatud ja tunnustatud

1. Avan Süsteem> Haldus> Synaptic Package Manager (GNOME'is)

2. Otsige ja raamistage tesseract-ocr-spa (hispaania keeles skannimiseks) ja gscan2pdf installimiseks

3. Skannimiseks avan rakendused> Graafika> gscan2pdf

Ja valmis.

Vastake rakendusele Let's Use Linux
Trubaduur DIJO
tagasi 10 aastat

Hei sõber, suur aitäh, tõde on see, et tesseract on hea tööriist, kuid võrreldes "probleemse" skannimisega raamatutega väga piiratud. Teiselt poolt kohandub see tarkvara kergemini ... 😀

Vasta Trovadordebarrole
Juan Anez DIJO
tagasi 10 aastat

Piltide digiteerimise käigus teisendatakse PDF-A faile, need peavad olema OCR-vormingus. Kui tundlik on tulemuse suhtes mustvalge või halltoonides skaneerimine? Mida soovitatakse?

Vasta juan anezile