Cum să OCR un PDF și să activați selectarea și căutarea textului

Să presupunem că aveți un PDF care a fost creat folosind un scaner sau că vi l-au transmis, dar acesta conține informațiile sub forma unei imagini. Se numește procedura la care trebuie să trimitem iubitul nostru PDF OCR: un proces care identifică automat simboluri sau caractere care aparțin unui anumit alfabet, de la o imagine pentru a o stoca sub formă de date cu care putem interacționa printr-un program de editare a textului sau similar.


pdfocr este un instrument simplu care creează un nou PDF cu un strat de text încorporat, permițând utilizatorului să selecteze text și să caute cuvinte în acesta, fără a schimba aspectul final al PDF-ului.

Pentru ce nu este pdfocr:

Acest lucru funcționează numai dacă PDF-ul conține informații sub formă de imagine; dacă ați exportat PDF-ul din OpenOffice, acesta are deja un strat de text încorporat, deci această procedură nu este necesară.

Cum se instalează pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Cum se folosește pdfocr:

Deschideți un terminal, accesați directorul în care se află PDF-ul pe care doriți să îl convertiți și introduceți următoarele (înlocuind input.pdf cu PDF-ul pe care doriți să-l convertiți și output.pdf cu numele noului fișier cu stratul de text încorporat )

pdfocr -i input.pdf -o output.pdf

Așteptați ca fiecare pagină a PDF-ului dvs. să fie practicată de OCR și să fie creat fișierul final modificat. Acest lucru ar trebui să dureze câteva secunde pe pagină, în funcție de rezoluția PDF-ului dvs.


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.

  1.   Rudolph Lara el a spus

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Citirea listei de pachete ... Gata
    Crearea arborelui dependenței
    Citirea informațiilor de stare ... Gata
    E: Pachetul pdfocr nu a putut fi localizat
    rodolfo @ rodolfo-desktop: ~ $

  2.   Să folosim Linux el a spus

    Te-ai asigurat că adaugi PPA-ul corespunzător?
    Acest PPA are probabil versiuni de pdfocr pentru versiuni mai vechi de Ubuntu. Gândiți-vă că această postare are deja câteva luni. Oricum, ideea este aceeași. Accesați Launchpad și căutați un PPA care conține versiuni de pdfocr pentru Maverick.
    Noroc! Paul.

  3.   jvare el a spus

    Ei bine, va fi o chestiune de testare pentru a vedea cum funcționează

  4.   Să folosim Linux el a spus

    Dați-i drumul! Spuneți-ne dacă ați avut succes !! Dacă nu funcționează, putem încerca să vă ajutăm! Noroc! Paul.

  5.   a01653 el a spus

    Buna,
    Am testat programul pe un pdf și rezultatul nu este foarte bun. Sunt obișnuit cu profesionistul acrobat 8 ​​și căutam ceva similar. Acrobat trece utilitare la fișiere pentru a curăța și îndrepta fișierele pdf scanate și astfel a obține o sursă mai bună pentru ocr. Știți dacă există o soluție pentru asta.

    Un saludo

  6.   Să folosim Linux el a spus

    Salut! Am auzit că Tesseract este cel mai bun open source OCR. Nu știu dacă va fi bine. De asemenea, trebuie să vă murdăriți mâinile pentru a face să funcționeze. Iată câteva instrucțiuni. Dacă aveți succes, vă rog să mă anunțați, deoarece, dacă funcționează, va ajunge probabil să devină un post.

    Mai întâi instalați pachetele „tesseract 2.03-4” și „imagemagick” folosind Synaptic, „xsane2tess” de la „http://download.tuxfamily.org/guadausers/guadaV4/”.

    Apoi creați folderul tmp în: / home / numele dvs. de utilizator / tmp

    Apoi deschideți Xsane pentru a-l configura, Preferințe -> Configurare -> fila OCR și completați următoarele:

    Comandă OCR -> xsane2tess -l spa
    Opțiunea de intrare fișier -> -i
    Opțiunea de fișier de ieșire -> -o
    Opțiune de ieșire -fd interface -> -x

    În configurațiile Xsane din fila „Salvați” din partea în care scrie directorul temporar, asigurați-vă că există folderul „tmp” pe care l-ați creat în „/ home / yourusername”

    Vă las și o pagină cu detalii despre cum să faceți OCR în Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Să folosim Linux el a spus

    O altă metodă pe care am descoperit-o x este următoarea:

    Presupunând că scanerul a fost deja conectat și recunoscut de sistem

    1. Deschid Sistem> Administrare> Manager de pachete Synaptic (în GNOME)

    2. Căut și cadru pentru a instala tesseract-ocr-spa (pentru a scana în spaniolă) și gscan2pdf

    3. Pentru scanare deschid Aplicații> Grafică> gscan2pdf

    Și gata.

  8.   Trubadur el a spus

    Hei prietene, mulțumesc foarte mult, adevărul este că tesseract este un instrument bun, dar foarte limitat în comparație cu cărțile cu scanare „problematică”. Pe de altă parte, acest software se adaptează mai ușor ... 😀

  9.   Juan Anez el a spus

    Într-un proces de digitalizare a imaginilor, fișierele PDF-A sunt convertite, acestea trebuie să fie OCR. Cât de sensibil la rezultat este scanarea în alb-negru sau în tonuri de gri? Ce este recomandat?