Cum să OCR un PDF și să activați selecția și căutarea textului

Cum să OCR un PDF și să activați selectarea și căutarea textului

Să presupunem că aveți un PDF care a fost creat folosind un scaner sau că vi l-au transmis, dar acesta conține informațiile sub forma unei imagini. Se numește procedura la care trebuie să trimitem iubitul nostru PDF OCR: un proces care identifică automat simboluri sau caractere care aparțin unui anumit alfabet, de la o imagine pentru a o stoca sub formă de date cu care putem interacționa printr-un program de editare a textului sau similar.

pdfocr este un instrument simplu care creează un nou PDF cu un strat de text încorporat, permițând utilizatorului să selecteze text și să caute cuvinte în acesta, fără a schimba aspectul final al PDF-ului.

Pentru ce nu este pdfocr:

Acest lucru funcționează numai dacă PDF-ul conține informații sub formă de imagine; dacă ați exportat PDF-ul din OpenOffice, acesta are deja un strat de text încorporat, deci această procedură nu este necesară.

Cum se instalează pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

Cum se folosește pdfocr:

Deschideți un terminal, accesați directorul în care se află PDF-ul pe care doriți să îl convertiți și introduceți următoarele (înlocuind input.pdf cu PDF-ul pe care doriți să-l convertiți și output.pdf cu numele noului fișier cu stratul de text încorporat )

pdfocr -i input.pdf -o output.pdf

Așteptați ca fiecare pagină a PDF-ului dvs. să fie practicată de OCR și să fie creat fișierul final modificat. Acest lucru ar trebui să dureze câteva secunde pe pagină, în funcție de rezoluția PDF-ului dvs.

Lasă comentariul tău Anulați răspunsul

Rudolph Lara el a spus
hace Ani 11

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Citirea listei de pachete ... Gata
Crearea arborelui dependenței
Citirea informațiilor de stare ... Gata
E: Pachetul pdfocr nu a putut fi localizat
rodolfo @ rodolfo-desktop: ~ $

Răspunde lui Rodolfo Lara
Să folosim Linux el a spus
hace Ani 11

Te-ai asigurat că adaugi PPA-ul corespunzător?
Acest PPA are probabil versiuni de pdfocr pentru versiuni mai vechi de Ubuntu. Gândiți-vă că această postare are deja câteva luni. Oricum, ideea este aceeași. Accesați Launchpad și căutați un PPA care conține versiuni de pdfocr pentru Maverick.
Noroc! Paul.

Răspundeți la Să folosim Linux
jvare el a spus
hace Ani 11

Ei bine, va fi o chestiune de testare pentru a vedea cum funcționează

Răspunde la Jvare
Să folosim Linux el a spus
hace Ani 11

Dați-i drumul! Spuneți-ne dacă ați avut succes !! Dacă nu funcționează, putem încerca să vă ajutăm! Noroc! Paul.

Răspundeți la Să folosim Linux
a01653 el a spus
hace Ani 11

Buna,
Am testat programul pe un pdf și rezultatul nu este foarte bun. Sunt obișnuit cu profesionistul acrobat 8 și căutam ceva similar. Acrobat trece utilitare la fișiere pentru a curăța și îndrepta fișierele pdf scanate și astfel a obține o sursă mai bună pentru ocr. Știți dacă există o soluție pentru asta.

Un saludo

Răspunde la a01653
Să folosim Linux el a spus
hace Ani 11

Salut! Am auzit că Tesseract este cel mai bun open source OCR. Nu știu dacă va fi bine. De asemenea, trebuie să vă murdăriți mâinile pentru a face să funcționeze. Iată câteva instrucțiuni. Dacă aveți succes, vă rog să mă anunțați, deoarece, dacă funcționează, va ajunge probabil să devină un post.

Mai întâi instalați pachetele „tesseract 2.03-4” și „imagemagick” folosind Synaptic, „xsane2tess” de la „http://download.tuxfamily.org/guadausers/guadaV4/”.

Apoi creați folderul tmp în: / home / numele dvs. de utilizator / tmp

Apoi deschideți Xsane pentru a-l configura, Preferințe -> Configurare -> fila OCR și completați următoarele:

Comandă OCR -> xsane2tess -l spa
Opțiunea de intrare fișier -> -i
Opțiunea de fișier de ieșire -> -o
Opțiune de ieșire -fd interface -> -x

În configurațiile Xsane din fila „Salvați” din partea în care scrie directorul temporar, asigurați-vă că există folderul „tmp” pe care l-ați creat în „/ home / yourusername”

Vă las și o pagină cu detalii despre cum să faceți OCR în Ubuntu: https://help.ubuntu.com/community/OCR

Răspundeți la Să folosim Linux
Să folosim Linux el a spus
hace Ani 11

O altă metodă pe care am descoperit-o x este următoarea:

Presupunând că scanerul a fost deja conectat și recunoscut de sistem

1. Deschid Sistem> Administrare> Manager de pachete Synaptic (în GNOME)

2. Căut și cadru pentru a instala tesseract-ocr-spa (pentru a scana în spaniolă) și gscan2pdf

3. Pentru scanare deschid Aplicații> Grafică> gscan2pdf

Și gata.

Răspundeți la Să folosim Linux
Trubadur el a spus
hace Ani 10

Hei prietene, mulțumesc foarte mult, adevărul este că tesseract este un instrument bun, dar foarte limitat în comparație cu cărțile cu scanare „problematică”. Pe de altă parte, acest software se adaptează mai ușor ... 😀

Răspunde lui Trovadordebarro
Juan Anez el a spus
hace Ani 10

Într-un proces de digitalizare a imaginilor, fișierele PDF-A sunt convertite, acestea trebuie să fie OCR. Cât de sensibil la rezultat este scanarea în alb-negru sau în tonuri de gri? Ce este recomandat?

Răspunde la juan anez