PDF nasıl OCR yapılır ve metin seçimi ve arama etkinleştirilir

Bir tarayıcı kullanılarak oluşturulmuş veya size iletilmiş ancak bir resim biçiminde bilgileri içeren bir PDF'niz olduğunu varsayalım.. Sevgili PDF'imizi göndermemiz gereken prosedüre denir OCR: Bir görüntüden, bir metin düzenleme programı veya benzeri aracılığıyla etkileşime girebileceğimiz veri biçiminde depolamak için belirli bir alfabeye ait sembolleri veya karakterleri otomatik olarak tanımlayan bir işlem.


pdfocr, gömülü bir metin katmanıyla yeni bir PDF oluşturan, kullanıcının PDF'nin son görünümünü değiştirmeden metni seçmesine ve içindeki sözcükleri aramasına olanak tanıyan basit bir araçtır.

Pdfocr ne için DEĞİLDİR:

Bu, yalnızca PDF bilgileri görüntü biçiminde içeriyorsa kullanışlıdır; PDF'yi OpenOffice'ten dışa aktardıysanız, zaten gömülü bir metin katmanı vardır, bu nedenle bu prosedür gereksizdir.

Pdfocr nasıl kurulur:

sudo eklenti-apt-deposu ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get kurulum pdfocr

Pdfocr nasıl kullanılır:

Bir terminal açın, dönüştürmek istediğiniz PDF'nin bulunduğu dizine gidin ve aşağıdakini girin (input.pdf'i dönüştürmek istediğiniz PDF ile değiştirin ve yeni dosyanın adıyla çıktı.pdf'i gömülü metin katmanıyla değiştirin )

pdfocr -i girdi.pdf -o çıktı.pdf

PDF'nizin her sayfasında OCR alıştırması yapılmasını ve değiştirilen son dosyanın oluşturulmasını bekleyin. Bu, PDF'nizin çözünürlüğüne bağlı olarak sayfa başına birkaç saniye sürecektir.


Yorumunuzu bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmiştir *

*

*

  1. Verilerden sorumlu: Miguel Ángel Gatón
  2. Verilerin amacı: Kontrol SPAM, yorum yönetimi.
  3. Meşruiyet: Onayınız
  4. Verilerin iletilmesi: Veriler, yasal zorunluluk dışında üçüncü kişilere iletilmeyecektir.
  5. Veri depolama: Occentus Networks (AB) tarafından barındırılan veritabanı
  6. Haklar: Bilgilerinizi istediğiniz zaman sınırlayabilir, kurtarabilir ve silebilirsiniz.

  1.   rudolph lara dijo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Paket listesi okunuyor ... Bitti
    Bağımlılık ağacı oluşturma
    Durum bilgilerinin okunması ... Bitti
    E: pdfocr paketi bulunamadı
    rodolfo @ rodolfo-masaüstü: ~ $

  2.   Hadi Linux kullanalım dijo

    İlgili PPA'yı eklediğinizden emin misiniz?
    Bu PPA muhtemelen eski Ubuntu sürümleri için pdfocr sürümlerine sahiptir. Bu gönderinin zaten birkaç aylık olduğunu düşünün. Her neyse, fikir aynı. Launchpad'e gidin ve Maverick için pdfocr'ın sürümlerini içeren bir PPA arayın.
    Şerefe! Paul.

  3.   jvare dijo

    Peki, nasıl çalıştığını görmek için test etmek gerekecek

  4.   Hadi Linux kullanalım dijo

    Devam et! Başarılı olup olmadığınızı bize bildirin !! İşe yaramazsa, size yardımcı olmaya da çalışabiliriz! Şerefe! Paul.

  5.   a01653 dijo

    Merhaba,
    Programı bir pdf üzerinde test ettim ve sonuç pek iyi değil. Profesyonel akrobat 8'e alışkınım ve benzer bir şey arıyordum. Acrobat, taranan pdf'leri temizlemek ve düzeltmek ve böylece ocr için daha iyi bir kaynak elde etmek için yardımcı programları dosyalara aktarır. Bunun için bir çözüm olup olmadığını biliyorsunuz.

    selamlar

  6.   Hadi Linux kullanalım dijo

    Merhaba! Tesseract'ın en iyi açık kaynaklı OCR olduğunu duydum. İyi olur mu bilmiyorum. Ayrıca, çalışmasını sağlamak için ellerinizi biraz kirletmelisiniz. İşte bazı talimatlar. Başarılıysanız, lütfen bana bildirin, çünkü işe yararsa, muhtemelen bir gönderi haline gelecektir.

    Önce Synaptic, "xsane2.03tess" kullanarak "tesseract 4-2" ve "imagemagick" paketlerini "http://download.tuxfamily.org/guadausers/guadaV4/" adresinden kurun.

    Sonra tmp klasörünü şurada oluşturun: / home / kullanıcı adınız / tmp

    Ardından yapılandırmak için Xsane'yi açın, Tercihler–> Yapılandırma–> OCR sekmesini açın ve aşağıdakileri doldurun:

    OCR komutu -> xsane2tess -l spa
    Giriş dosyası seçeneği -> -i
    Çıktı dosyası seçeneği -> -o
    Çıkış seçeneği -fd arayüzü -> -x

    Geçici dizin yazan bölümdeki "kaydet" sekmesindeki Xsane yapılandırmalarında, "/ home / kullanıcı adınız" içinde oluşturduğunuz "tmp" klasörünün bulunduğundan emin olun.

    Ayrıca size Ubuntu'da OCR'nin nasıl yapılacağına dair ayrıntıları içeren bir sayfa bırakıyorum: https://help.ubuntu.com/community/OCR

  7.   Hadi Linux kullanalım dijo

    X'i keşfettiğim bir başka yöntem de şudur:

    Tarayıcının zaten bağlandığını ve sistem tarafından tanındığını varsayarsak

    1. System> Administration> Synaptic Package Manager'ı (GNOME'da) açıyorum

    2. tesseract-ocr-spa (İspanyolca taramak için) ve gscan2pdf'i kurmak için arama ve çerçeve oluşturuyorum

    3. Taramak için Uygulamalar> Grafikler> gscan2pdf'i açıyorum

    Ve hazır.

  8.   Ozan dijo

    Hey arkadaşım, çok teşekkür ederim, gerçek şu ki tesseract iyi bir araçtır, ancak "problemli" taraması olan kitaplara kıyasla çok sınırlı. Öte yandan, bu yazılım daha kolay adapte oluyor ... 😀

  9.   Juan anez dijo

    Görüntüleri sayısallaştırma sürecinde, PDF-A dosyaları dönüştürülüyor, OCR'lanmış olmaları gerekir. Siyah-Beyaz veya Gri Tonlamalı tarama sonuca ne kadar duyarlı? Ne tavsiye edilir?