Kuinka piirtää PDF-tiedosto ja ottaa käyttöön tekstin valinta ja haku

Oletetaan, että sinulla on PDF-tiedosto, joka on luotu skannerilla tai joka on välitetty sinulle, mutta se sisältää tiedot kuvan muodossa. Menettelyä, johon meidän on lähetettävä rakastettu PDF-tiedosto, kutsutaan OCR: prosessi, joka tunnistaa automaattisesti tietylle aakkoselle kuuluvat symbolit tai merkit kuvasta kuvan varastoimiseksi datana, jonka kanssa voimme olla vuorovaikutuksessa tekstieditointiohjelman tai vastaavan avulla.


pdfocr on yksinkertainen työkalu, joka luo uuden PDF: n upotetulla tekstikerroksella, jolloin käyttäjä voi valita tekstin ja etsiä sanoja siitä muuttamatta PDF: n lopullista ulkonäköä.

Mitä pdfocr EI OLE:

Tästä on hyötyä vain, jos PDF sisältää tiedot kuvamuodossa; Jos viet PDF-tiedoston OpenOffice-palvelusta, siinä on jo upotettu tekstikerros, joten tämä toimenpide on tarpeeton.

Kuinka asentaa pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Kuinka käyttää pdfocr:

Avaa pääte, siirry hakemistoon, jossa muunnettava PDF sijaitsee, ja kirjoita seuraava (korvaamalla input.pdf muunnettavalla ja output.pdf-tiedostolla uuden tiedoston nimellä upotetulla tekstikerroksella )

pdfocr -i input.pdf -o output.pdf

Odota, että jokaisella PDF-sivullasi on OCR-toiminto ja lopullinen muokattu tiedosto luodaan. Tämän pitäisi kestää muutama sekunti per sivu, riippuen PDF: n tarkkuudesta.


Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.

  1.   Rudolf Lara dijo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Luetaan pakettiluetteloa ... Valmis
    Luodaan riippuvuuspuu
    Tilatietojen lukeminen ... Valmis
    E: pdfocr-pakettia ei löytynyt
    rodolfo @ rodolfo-työpöytä: ~ $

  2.   Käytetään Linuxia dijo

    Lisäsitkö vastaavan PPA: n?
    Tällä PPA: lla on todennäköisesti pdfocr-versiot vanhemmille Ubuntu-versioille. Luulen, että tämä viesti on jo useita kuukausia vanha. Ajatus on joka tapauksessa sama. Siirry Launchpadiin ja etsi PPA, joka sisältää pdfaverin versiot Maverickille.
    Kippis! Paul.

  3.   jvare dijo

    No, se on asia testata sitä nähdäksesi, miten se toimii

  4.   Käytetään Linuxia dijo

    Mene eteenpäin! Kerro meille, jos onnistuit !! Jos se ei toimi, voimme myös yrittää auttaa sinua! Kippis! Paul.

  5.   a01653 dijo

    Hei,
    Olen testannut ohjelmaa pdf-muodossa ja tulos ei ole kovin hyvä. Olen tottunut ammattimaiseen akrobaattiin 8 ja etsin jotain vastaavaa. Acrobat siirtää apuohjelmat tiedostoihin puhdistamaan ja suoristamaan skannatut pdf-tiedostot ja saamaan siten paremman lähteen ocr: lle. Tiedätkö onko tähän ratkaisu.

    tervehdys

  6.   Käytetään Linuxia dijo

    Hei! Olen kuullut noin, että Tesseract on paras avoimen lähdekoodin OCR. En tiedä onko siitä hyvä. Lisäksi sinun täytyy saada kätesi hieman likaiseksi, jotta se toimisi. Tässä on joitain ohjeita. Jos onnistut, pyydän sinua ilmoittamaan minulle, koska jos se toimii, siitä todennäköisesti tulee viesti.

    Asenna ensin paketit "tesseract 2.03-4" ja "imagemagick" käyttämällä Synapticia, "xsane2tess", sivulta "http://download.tuxfamily.org/guadausers/guadaV4/".

    Luo sitten tmp-kansio kansioon: / home / käyttäjänimesi / tmp

    Määritä sitten avaamalla Xsane, Asetukset -> Kokoonpano -> OCR-välilehti ja täytä seuraava:

    OCR-komento -> xsane2tess -l spa
    Syötetiedosto-vaihtoehto -> -i
    Tulostustiedoston vaihtoehto -> -o
    Lähtövaihtoehto -fd-liitäntä -> -x

    Xsane-määrityksissä "tallenna" -välilehdessä osassa, jossa sanotaan väliaikainen hakemisto, varmista, että kansiossa "/ home / käyttäjänimi" on luomasi "tmp" -kansio

    Jätän sinulle myös sivun, jossa on tietoja OCR: n tekemisestä Ubuntussa: https://help.ubuntu.com/community/OCR

  7.   Käytetään Linuxia dijo

    Toinen menetelmä, jonka löysin x, on seuraava:

    Olettaen, että skanneri on jo liitetty ja tunnistettu järjestelmässä

    1. Avaa Järjestelmä> Hallinta> Synaptic Package Manager (GNOME-sovelluksessa)

    2. Etsin ja kehitin asentaa tesseract-ocr-spa (skannata espanjaksi) ja gscan2pdf

    3. Skannaamiseksi avaan Sovellukset> Grafiikka> gscan2pdf

    Ja valmis.

  8.   Trubaduuri dijo

    Hei ystävä, kiitos paljon, totuus on, että tesseract on hyvä työkalu, mutta hyvin rajallinen verrattuna "ongelmallisella" skannauksella varustettuihin kirjoihin. Toisaalta tämä ohjelmisto sopeutuu helpommin ... 😀

  9.   Juan Anez dijo

    Kuvien digitoinnin aikana PDF-A-tiedostoja muunnetaan, ja niiden on oltava OCR-tiedostoja. Kuinka herkkä tulos on skannaus mustavalkoisena tai harmaasävynä? Mitä suositellaan?