PDF'ye OCR Nasıl Yapılır ve Metin Seçimi ve Araması Nasıl Etkinleştirilir

PDF nasıl OCR yapılır ve metin seçimi ve arama etkinleştirilir

Bir tarayıcı kullanılarak oluşturulmuş veya size iletilmiş ancak bir resim biçiminde bilgileri içeren bir PDF'niz olduğunu varsayalım.. Sevgili PDF'imizi göndermemiz gereken prosedüre denir OCR: Bir görüntüden, bir metin düzenleme programı veya benzeri aracılığıyla etkileşime girebileceğimiz veri biçiminde depolamak için belirli bir alfabeye ait sembolleri veya karakterleri otomatik olarak tanımlayan bir işlem.

pdfocr, gömülü bir metin katmanıyla yeni bir PDF oluşturan, kullanıcının PDF'nin son görünümünü değiştirmeden metni seçmesine ve içindeki sözcükleri aramasına olanak tanıyan basit bir araçtır.

Pdfocr ne için DEĞİLDİR:

Bu, yalnızca PDF bilgileri görüntü biçiminde içeriyorsa kullanışlıdır; PDF'yi OpenOffice'ten dışa aktardıysanız, zaten gömülü bir metin katmanı vardır, bu nedenle bu prosedür gereksizdir.

Pdfocr nasıl kurulur:

sudo eklenti-apt-deposu ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get kurulum pdfocr

Pdfocr nasıl kullanılır:

Bir terminal açın, dönüştürmek istediğiniz PDF'nin bulunduğu dizine gidin ve aşağıdakini girin (input.pdf'i dönüştürmek istediğiniz PDF ile değiştirin ve yeni dosyanın adıyla çıktı.pdf'i gömülü metin katmanıyla değiştirin )

pdfocr -i girdi.pdf -o çıktı.pdf

PDF'nizin her sayfasında OCR alıştırması yapılmasını ve değiştirilen son dosyanın oluşturulmasını bekleyin. Bu, PDF'nizin çözünürlüğüne bağlı olarak sayfa başına birkaç saniye sürecektir.

Yorumunuzu bırakın Cevabı iptal et

rudolph lara dijo
önce 11 yıl

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Paket listesi okunuyor ... Bitti
Bağımlılık ağacı oluşturma
Durum bilgilerinin okunması ... Bitti
E: pdfocr paketi bulunamadı
rodolfo @ rodolfo-masaüstü: ~ $

Rodolfo Lara için yanıt
Hadi Linux kullanalım dijo
önce 11 yıl

İlgili PPA'yı eklediğinizden emin misiniz?
Bu PPA muhtemelen eski Ubuntu sürümleri için pdfocr sürümlerine sahiptir. Bu gönderinin zaten birkaç aylık olduğunu düşünün. Her neyse, fikir aynı. Launchpad'e gidin ve Maverick için pdfocr'ın sürümlerini içeren bir PPA arayın.
Şerefe! Paul.

Linux Kullanalım'a Cevap Verin
jvare dijo
önce 11 yıl

Peki, nasıl çalıştığını görmek için test etmek gerekecek

Jvare için yanıt
Hadi Linux kullanalım dijo
önce 11 yıl

Devam et! Başarılı olup olmadığınızı bize bildirin !! İşe yaramazsa, size yardımcı olmaya da çalışabiliriz! Şerefe! Paul.

Linux Kullanalım'a Cevap Verin
a01653 dijo
önce 11 yıl

Merhaba,
Programı bir pdf üzerinde test ettim ve sonuç pek iyi değil. Profesyonel akrobat 8'e alışkınım ve benzer bir şey arıyordum. Acrobat, taranan pdf'leri temizlemek ve düzeltmek ve böylece ocr için daha iyi bir kaynak elde etmek için yardımcı programları dosyalara aktarır. Bunun için bir çözüm olup olmadığını biliyorsunuz.

selamlar

A01653 için yanıt
Hadi Linux kullanalım dijo
önce 11 yıl

Merhaba! Tesseract'ın en iyi açık kaynaklı OCR olduğunu duydum. İyi olur mu bilmiyorum. Ayrıca, çalışmasını sağlamak için ellerinizi biraz kirletmelisiniz. İşte bazı talimatlar. Başarılıysanız, lütfen bana bildirin, çünkü işe yararsa, muhtemelen bir gönderi haline gelecektir.

Önce Synaptic, "xsane2.03tess" kullanarak "tesseract 4-2" ve "imagemagick" paketlerini "http://download.tuxfamily.org/guadausers/guadaV4/" adresinden kurun.

Sonra tmp klasörünü şurada oluşturun: / home / kullanıcı adınız / tmp

Ardından yapılandırmak için Xsane'yi açın, Tercihler–> Yapılandırma–> OCR sekmesini açın ve aşağıdakileri doldurun:

OCR komutu -> xsane2tess -l spa
Giriş dosyası seçeneği -> -i
Çıktı dosyası seçeneği -> -o
Çıkış seçeneği -fd arayüzü -> -x

Geçici dizin yazan bölümdeki "kaydet" sekmesindeki Xsane yapılandırmalarında, "/ home / kullanıcı adınız" içinde oluşturduğunuz "tmp" klasörünün bulunduğundan emin olun.

Ayrıca size Ubuntu'da OCR'nin nasıl yapılacağına dair ayrıntıları içeren bir sayfa bırakıyorum: https://help.ubuntu.com/community/OCR

Linux Kullanalım'a Cevap Verin
Hadi Linux kullanalım dijo
önce 11 yıl

X'i keşfettiğim bir başka yöntem de şudur:

Tarayıcının zaten bağlandığını ve sistem tarafından tanındığını varsayarsak

1. System> Administration> Synaptic Package Manager'ı (GNOME'da) açıyorum

2. tesseract-ocr-spa (İspanyolca taramak için) ve gscan2pdf'i kurmak için arama ve çerçeve oluşturuyorum

3. Taramak için Uygulamalar> Grafikler> gscan2pdf'i açıyorum

Ve hazır.

Linux Kullanalım'a Cevap Verin
Ozan dijo
önce 10 yıl

Hey arkadaşım, çok teşekkür ederim, gerçek şu ki tesseract iyi bir araçtır, ancak "problemli" taraması olan kitaplara kıyasla çok sınırlı. Öte yandan, bu yazılım daha kolay adapte oluyor ... 😀

Trovadordebarro için yanıt
Juan anez dijo
önce 10 yıl

Görüntüleri sayısallaştırma sürecinde, PDF-A dosyaları dönüştürülüyor, OCR'lanmış olmaları gerekir. Siyah-Beyaz veya Gri Tonlamalı tarama sonuca ne kadar duyarlı? Ne tavsiye edilir?

Juan anez için yanıt