Hogyan lehet OCR-t vinni a PDF-be, és engedélyezni a szöveg kiválasztását és keresését

Tegyük fel, hogy van egy PDF-je, amelyet szkennerrel készítettek, vagy amelyet továbbítottak Önnek, de kép formájában tartalmazza az információkat. Meghívjuk azt az eljárást, amelyhez el kell juttatnunk szeretett PDF-fájlunkat OCR: olyan folyamat, amely automatikusan azonosítja az adott ábécéjéhez tartozó szimbólumokat vagy karaktereket, egy képtől annak tárolására olyan adatok formájában, amelyekkel kölcsönhatásba léphetünk egy szövegszerkesztő programon vagy hasonló módon.


A pdfocr egy egyszerű eszköz, amely egy új PDF-et hoz létre beágyazott szövegréteggel, lehetővé téve a felhasználó számára a szöveg kiválasztását és a szavak keresését benne, anélkül, hogy megváltoztatná a PDF végleges megjelenését.

Mire nem alkalmas a pdfocr:

Ez csak akkor működik, ha a PDF kép formában tartalmazza az információkat; ha a PDF fájlt az OpenOffice-ból exportálta, akkor annak már van beágyazott szövegrétege, ezért ez az eljárás felesleges.

A pdfocr telepítése:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

A pdfocr használata:

Nyisson meg egy terminált, lépjen abba a könyvtárba, ahol a konvertálni kívánt PDF található, és írja be a következőket (az input.pdf helyébe az átalakítandó és kimenő PDF-et cserélje ki az új fájl nevével, a beágyazott szövegréteggel )

pdfocr -i input.pdf -o output.pdf

Várja meg, amíg a PDF-fájlok minden oldala OCR-t gyakorol, és létrejön a végleges módosított fájl. Ez oldalanként néhány másodpercet vesz igénybe, a PDF felbontásától függően.


Hagyja megjegyzését

E-mail címed nem kerül nyilvánosságra. Kötelező mezők vannak jelölve *

*

*

  1. Az adatokért felelős: Miguel Ángel Gatón
  2. Az adatok célja: A SPAM ellenőrzése, a megjegyzések kezelése.
  3. Legitimáció: Az Ön beleegyezése
  4. Az adatok közlése: Az adatokat csak jogi kötelezettség alapján továbbítjuk harmadik felekkel.
  5. Adattárolás: Az Occentus Networks (EU) által üzemeltetett adatbázis
  6. Jogok: Bármikor korlátozhatja, helyreállíthatja és törölheti adatait.

  1.   Rudolph Lara dijo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Csomaglista olvasása ... Kész
    Függőségfa létrehozása
    Az állapotinformációk olvasása ... Kész
    E: A pdfocr csomag nem található
    rodolfo @ rodolfo-desktop: ~ $

  2.   Használjuk a Linuxot dijo

    Biztosan hozzáadta a megfelelő PPA-t?
    Ez a PPA valószínűleg rendelkezik a pdfocr verzióival a régebbi Ubuntu verziókhoz. Gondolj arra, hogy ez a bejegyzés már több hónapos. Egyébként az ötlet ugyanaz. Lépjen a Launchpad oldalra, és keressen egy PPA-t, amely a Maverick pdfocr verzióit tartalmazza.
    Egészségére! Pál.

  3.   jvare dijo

    Nos, tesztelni kell, hogy lássuk, hogyan működik

  4.   Használjuk a Linuxot dijo

    Menj tovább! Mondja el nekünk, hogy sikeres volt-e !! Ha nem működik, akkor megpróbálhatunk segíteni Önnek is! Egészségére! Pál.

  5.   a01653 dijo

    Helló,
    Kipróbáltam a programot pdf-en, és az eredmény nem túl jó. Hozzászoktam a profi 8-as akrobatához, és valami hasonlót kerestem. Az Acrobat a segédprogramokat továbbítja a fájlokhoz, hogy megtisztítsák és kiegyenesítsék a beolvasott pdf-eket, és így jobb forráshoz jussanak az ocr számára. Tudja, hogy van erre megoldás.

    Az üdvözlő

  6.   Használjuk a Linuxot dijo

    Helló! Körülbelül hallottam, hogy a Tesseract a legjobb nyílt forráskódú OCR. Nem tudom jó lesz-e. Emellett kissé be kell koszolnia a kezét, hogy működjön. Íme néhány utasítás. Ha sikeres vagy, kérlek, tudasd velem, mivel ha működik, akkor valószínűleg poszt lesz belőle.

    Először telepítse a "tesseract 2.03-4" és az "imagemagick" csomagokat a Synaptic, az "xsane2tess" használatával a "http://download.tuxfamily.org/guadausers/guadaV4/" mappából.

    Ezután hozza létre a tmp mappát: / home / felhasználónév / tmp

    Ezután nyissa meg az Xsane konfigurálásához a Beállítások -> Konfiguráció -> OCR lapot, és töltse ki a következőket:

    OCR parancs -> xsane2tess -l spa
    Bemeneti fájl opció -> -i
    Kimeneti fájl opció -> -o
    Kimeneti opció -fd interfész -> -x

    Az Xsane konfigurációiban az ideiglenes könyvtárat tartalmazó rész "mentése" lapján ellenőrizze, hogy ott van-e a "tmp" mappa, amelyet a "/ home / yourusername" könyvtárban hozott létre

    Hagyok neked egy oldalt is, amely részletezi az OCR-t az Ubuntuban: https://help.ubuntu.com/community/OCR

  7.   Használjuk a Linuxot dijo

    Egy másik módszer, amelyet felfedeztem x, a következő:

    Feltéve, hogy a szkennert már csatlakoztatta és felismerte a rendszer

    1. Megnyitom a Rendszer> Adminisztráció> Synaptic Package Manager alkalmazást (a GNOME-ban)

    2. Megkeressem a keretrendszert a tesseract-ocr-spa (spanyol nyelvű szkennelés) és a gscan2pdf telepítéséhez

    3. A beolvasáshoz nyissam meg az Applications> Graphics> gscan2pdf fájlt

    És kész.

  8.   Trubadúr dijo

    Hé barátom, köszönöm szépen, az az igazság, hogy a tesseract jó eszköz, de nagyon korlátozott a "problémás" szkennelésű könyvekhez képest. Másrészt ez a szoftver könnyebben alkalmazkodik ... 😀

  9.   Juan Anez dijo

    A képek digitalizálása során a PDF-A fájlokat konvertálják, ezeket OCR-sel kell ellátni. Mennyire érzékeny az eredményre a fekete-fehér vagy a szürkeárnyalatos szkennelés? Mi ajánlott?