Bir tarayıcı kullanılarak oluşturulmuş veya size iletilmiş ancak bir resim biçiminde bilgileri içeren bir PDF'niz olduğunu varsayalım.. Sevgili PDF'imizi göndermemiz gereken prosedüre denir OCR: Bir görüntüden, bir metin düzenleme programı veya benzeri aracılığıyla etkileşime girebileceğimiz veri biçiminde depolamak için belirli bir alfabeye ait sembolleri veya karakterleri otomatik olarak tanımlayan bir işlem. |
pdfocr, gömülü bir metin katmanıyla yeni bir PDF oluşturan, kullanıcının PDF'nin son görünümünü değiştirmeden metni seçmesine ve içindeki sözcükleri aramasına olanak tanıyan basit bir araçtır.
Pdfocr ne için DEĞİLDİR:
Bu, yalnızca PDF bilgileri görüntü biçiminde içeriyorsa kullanışlıdır; PDF'yi OpenOffice'ten dışa aktardıysanız, zaten gömülü bir metin katmanı vardır, bu nedenle bu prosedür gereksizdir.
Pdfocr nasıl kurulur:
sudo eklenti-apt-deposu ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get kurulum pdfocr
Pdfocr nasıl kullanılır:
Bir terminal açın, dönüştürmek istediğiniz PDF'nin bulunduğu dizine gidin ve aşağıdakini girin (input.pdf'i dönüştürmek istediğiniz PDF ile değiştirin ve yeni dosyanın adıyla çıktı.pdf'i gömülü metin katmanıyla değiştirin )
pdfocr -i girdi.pdf -o çıktı.pdf
PDF'nizin her sayfasında OCR alıştırması yapılmasını ve değiştirilen son dosyanın oluşturulmasını bekleyin. Bu, PDF'nizin çözünürlüğüne bağlı olarak sayfa başına birkaç saniye sürecektir.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Paket listesi okunuyor ... Bitti
Bağımlılık ağacı oluşturma
Durum bilgilerinin okunması ... Bitti
E: pdfocr paketi bulunamadı
rodolfo @ rodolfo-masaüstü: ~ $
İlgili PPA'yı eklediğinizden emin misiniz?
Bu PPA muhtemelen eski Ubuntu sürümleri için pdfocr sürümlerine sahiptir. Bu gönderinin zaten birkaç aylık olduğunu düşünün. Her neyse, fikir aynı. Launchpad'e gidin ve Maverick için pdfocr'ın sürümlerini içeren bir PPA arayın.
Şerefe! Paul.
Peki, nasıl çalıştığını görmek için test etmek gerekecek
Devam et! Başarılı olup olmadığınızı bize bildirin !! İşe yaramazsa, size yardımcı olmaya da çalışabiliriz! Şerefe! Paul.
Merhaba,
Programı bir pdf üzerinde test ettim ve sonuç pek iyi değil. Profesyonel akrobat 8'e alışkınım ve benzer bir şey arıyordum. Acrobat, taranan pdf'leri temizlemek ve düzeltmek ve böylece ocr için daha iyi bir kaynak elde etmek için yardımcı programları dosyalara aktarır. Bunun için bir çözüm olup olmadığını biliyorsunuz.
selamlar
Merhaba! Tesseract'ın en iyi açık kaynaklı OCR olduğunu duydum. İyi olur mu bilmiyorum. Ayrıca, çalışmasını sağlamak için ellerinizi biraz kirletmelisiniz. İşte bazı talimatlar. Başarılıysanız, lütfen bana bildirin, çünkü işe yararsa, muhtemelen bir gönderi haline gelecektir.
Önce Synaptic, "xsane2.03tess" kullanarak "tesseract 4-2" ve "imagemagick" paketlerini "http://download.tuxfamily.org/guadausers/guadaV4/" adresinden kurun.
Sonra tmp klasörünü şurada oluşturun: / home / kullanıcı adınız / tmp
Ardından yapılandırmak için Xsane'yi açın, Tercihler–> Yapılandırma–> OCR sekmesini açın ve aşağıdakileri doldurun:
OCR komutu -> xsane2tess -l spa
Giriş dosyası seçeneği -> -i
Çıktı dosyası seçeneği -> -o
Çıkış seçeneği -fd arayüzü -> -x
Geçici dizin yazan bölümdeki "kaydet" sekmesindeki Xsane yapılandırmalarında, "/ home / kullanıcı adınız" içinde oluşturduğunuz "tmp" klasörünün bulunduğundan emin olun.
Ayrıca size Ubuntu'da OCR'nin nasıl yapılacağına dair ayrıntıları içeren bir sayfa bırakıyorum: https://help.ubuntu.com/community/OCR
X'i keşfettiğim bir başka yöntem de şudur:
Tarayıcının zaten bağlandığını ve sistem tarafından tanındığını varsayarsak
1. System> Administration> Synaptic Package Manager'ı (GNOME'da) açıyorum
2. tesseract-ocr-spa (İspanyolca taramak için) ve gscan2pdf'i kurmak için arama ve çerçeve oluşturuyorum
3. Taramak için Uygulamalar> Grafikler> gscan2pdf'i açıyorum
Ve hazır.
Hey arkadaşım, çok teşekkür ederim, gerçek şu ki tesseract iyi bir araçtır, ancak "problemli" taraması olan kitaplara kıyasla çok sınırlı. Öte yandan, bu yazılım daha kolay adapte oluyor ... 😀
Görüntüleri sayısallaştırma sürecinde, PDF-A dosyaları dönüştürülüyor, OCR'lanmış olmaları gerekir. Siyah-Beyaz veya Gri Tonlamalı tarama sonuca ne kadar duyarlı? Ne tavsiye edilir?