Paano mag-OCR ng PDF at Paganahin ang Pagpili at Paghahanap ng Teksto

Paano mag-OCR ng isang PDF at paganahin ang pagpili ng teksto at paghahanap

Ipagpalagay na mayroon kang isang PDF na nilikha gamit ang isang scanner, o naipasa nila ito sa iyo ngunit naglalaman ito ng impormasyon sa anyo ng isang imahe. Ang pamamaraan kung saan dapat naming isumite ang aming minamahal na PDF ay tinatawag OCR: isang proseso na awtomatikong kinikilala ang mga simbolo o character na kabilang sa isang tiyak na alpabeto, mula sa isang imahe upang maiimbak ito sa anyo ng data kung saan maaari kaming makipag-ugnay gamit ang isang programa sa pag-edit ng teksto o katulad.

Ang pdfocr ay isang simpleng tool na lumilikha ng isang bagong PDF na may isang naka-embed na layer ng teksto, na pinapayagan ang gumagamit na pumili ng teksto at maghanap para sa mga salita dito, nang hindi binabago ang pangwakas na hitsura ng PDF.

Ano ang HINDI para sa pdfocr:

Kapaki-pakinabang lamang ito kung naglalaman ang PDF ng impormasyon sa form ng imahe; kung na-export mo ang PDF mula sa OpenOffice, mayroon na itong naka-embed na layer ng teksto, kaya't hindi kinakailangan ang pamamaraang ito.

Paano mag-install ng pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-makakuha ng update
sudo apt-get install ng pdfocr

Paano gamitin ang pdfocr:

Magbukas ng isang terminal, pumunta sa direktoryo kung saan matatagpuan ang PDF na nais mong i-convert, at ipasok ang sumusunod (pinapalitan ang input.pdf sa PDF na nais mong i-convert at output.pdf ng pangalan ng bagong file na may naka-embed na layer ng teksto)

input ng sdocr –pdf -o output.pdf

Hintayin ang bawat pahina ng iyong PDF na maisagawa ang OCR at ang pangwakas na binagong file upang malikha. Dapat itong tumagal ng ilang segundo bawat pahina, depende sa resolusyon ng iyong PDF.

Iwanan ang iyong puna Ikansela ang tugon

Rudolph Lara dijo
nakararaan 11 taon

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Listahan ng package sa pagbabasa ... Tapos Na
Lumilikha ng puno ng pagtitiwala
Pagbasa ng impormasyon sa katayuan ... Tapos Na
E: Ang pakete ng pdfocr ay hindi matagpuan
rodolfo @ rodolfo-desktop: ~ $

Sagot kay Rodolfo Lara
Gumamit tayo ng Linux dijo
nakararaan 11 taon

Natiyak mo bang idaragdag ang kaukulang PPA?
Ang PPA na ito ay malamang na may mga bersyon ng pdfocr para sa mas lumang mga bersyon ng Ubuntu. Isipin na ang post na ito ay mayroon nang maraming buwan. Gayunpaman, ang ideya ay pareho. Pumunta sa Launchpad at hanapin ang isang PPA na naglalaman ng mga bersyon ng pdfocr para sa Maverick.
Cheers! Paul

Tumugon sa Gumamit Tayo ng Linux
jvare dijo
nakararaan 11 taon

Sa gayon, ito ay magiging isang bagay ng pagsubok ito upang makita kung paano ito gumagana

Tumugon kay Jvare
Gumamit tayo ng Linux dijo
nakararaan 11 taon

Sige lang! Ipaalam sa amin kung ikaw ay matagumpay !! Kung hindi ito gumana maaari ka ring subukang tulungan ka! Cheers! Paul

Tumugon sa Gumamit Tayo ng Linux
a01653 dijo
nakararaan 11 taon

Hello,
Nasubukan ko ang programa sa isang pdf at ang resulta ay hindi gaanong maganda. Sanay ako sa propesyonal na acrobat 8 at naghahanap ng katulad na bagay. Ang Acrobat ay nagpapasa ng mga utility sa mga file upang linisin at ituwid ang na-scan na mga pdfs at sa gayon ay makakuha ng isang mas mahusay na mapagkukunan para sa ocr. Alam mo ba kung may solusyon dito.

Isang pagbati

Tumugon sa a01653
Gumamit tayo ng Linux dijo
nakararaan 11 taon

Kamusta! Narinig ko sa paligid na ang Tesseract ay ang pinakamahusay na opensource OCR. Hindi ko alam kung magiging mabuti ito. Gayundin, kailangan mong makuha ang iyong mga kamay ng medyo marumi upang ito ay gumana. Narito ang ilang mga tagubilin. Kung matagumpay ka, mangyaring ipaalam sa akin dahil, kung ito ay gumagana, marahil ay magtatapos ito sa pagiging isang post.

I-install muna ang mga package na "tesseract 2.03-4" at "imagemagick" gamit ang Synaptic, "xsane2tess" mula sa "http://download.tuxfamily.org/guadausers/guadaV4/".

Pagkatapos ay likhain ang folder ng tmp sa: / home / yourusername / tmp

Pagkatapos buksan ang Xsane upang mai-configure ito, Mga Kagustuhan–> Pag-configure–> tab na OCR at punan ang sumusunod:

Command ng OCR -> xsane2tess -l spa
Pagpipilian sa pag-input ng file -> -i
Pagpipilian sa output ng file -> -o
Pagpipilian sa output -fd interface -> -x

Sa mga pagsasaayos ng Xsane sa tab na "i-save" sa bahaging sinasabi nito pansamantalang direktoryo, tiyaking mayroong folder na "tmp" na nilikha mo sa "/ home / yourusername"

Iiwan ko rin sa iyo ang isang pahina na may mga detalye tungkol sa kung paano mag-OCR sa Ubuntu: https://help.ubuntu.com/community/OCR

Tumugon sa Gumamit Tayo ng Linux
Gumamit tayo ng Linux dijo
nakararaan 11 taon

Ang isa pang pamamaraan na natuklasan ko x may mga sumusunod:

Ipagpalagay na ang scanner ay konektado at nakilala na ng system

1. Binubuksan ko ang System> Administrasyon> Synaptic Package Manager (sa GNOME)

2. Paghahanap at balangkas upang mai-install ang tesseract-ocr-spa (upang i-scan sa Espanyol) at gscan2pdf

3. Upang i-scan binubuksan ko ang Mga Aplikasyon> Graphics> gscan2pdf

At handa na.

Tumugon sa Gumamit Tayo ng Linux
Troubadour dijo
nakararaan 10 taon

Hoy kaibigan, maraming salamat, ang totoo ay ang tesseract ay isang mahusay na tool, ngunit napaka-limitado kumpara sa mga libro na may "may problemang" pag-scan. Sa kabilang banda, ang software na ito ay mas madaling umangkop ... 😀

Tumugon sa Trovadordebarro
Juan Anez dijo
nakararaan 10 taon

Sa isang proseso ng pag-digitize ng Mga Larawan, ang mga PDF-A na file ay nai-convert, dapat silang ma-OCR. Gaano kahirap sa resulta ang pag-scan sa Itim at Puti o Grayscale? Ano ang inirekomenda?

Sagot kay juan anez