PDF OCR és szövegkiválasztás és keresés engedélyezése

Hogyan lehet OCR-t vinni a PDF-be, és engedélyezni a szöveg kiválasztását és keresését

Tegyük fel, hogy van egy PDF-je, amelyet szkennerrel készítettek, vagy amelyet továbbítottak Önnek, de kép formájában tartalmazza az információkat. Meghívjuk azt az eljárást, amelyhez el kell juttatnunk szeretett PDF-fájlunkat OCR: olyan folyamat, amely automatikusan azonosítja az adott ábécéjéhez tartozó szimbólumokat vagy karaktereket, egy képtől annak tárolására olyan adatok formájában, amelyekkel kölcsönhatásba léphetünk egy szövegszerkesztő programon vagy hasonló módon.

A pdfocr egy egyszerű eszköz, amely egy új PDF-et hoz létre beágyazott szövegréteggel, lehetővé téve a felhasználó számára a szöveg kiválasztását és a szavak keresését benne, anélkül, hogy megváltoztatná a PDF végleges megjelenését.

Mire nem alkalmas a pdfocr:

Ez csak akkor működik, ha a PDF kép formában tartalmazza az információkat; ha a PDF fájlt az OpenOffice-ból exportálta, akkor annak már van beágyazott szövegrétege, ezért ez az eljárás felesleges.

A pdfocr telepítése:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get install pdfocr

A pdfocr használata:

Nyisson meg egy terminált, lépjen abba a könyvtárba, ahol a konvertálni kívánt PDF található, és írja be a következőket (az input.pdf helyébe az átalakítandó és kimenő PDF-et cserélje ki az új fájl nevével, a beágyazott szövegréteggel )

pdfocr -i input.pdf -o output.pdf

Várja meg, amíg a PDF-fájlok minden oldala OCR-t gyakorol, és létrejön a végleges módosított fájl. Ez oldalanként néhány másodpercet vesz igénybe, a PDF felbontásától függően.

Hagyja megjegyzését Mégsem válaszát

Rudolph Lara dijo
ezelőtt 11 év

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Csomaglista olvasása ... Kész
Függőségfa létrehozása
Az állapotinformációk olvasása ... Kész
E: A pdfocr csomag nem található
rodolfo @ rodolfo-desktop: ~ $

Válasz Rodolfo Lara-nak
Használjuk a Linuxot dijo
ezelőtt 11 év

Biztosan hozzáadta a megfelelő PPA-t?
Ez a PPA valószínűleg rendelkezik a pdfocr verzióival a régebbi Ubuntu verziókhoz. Gondolj arra, hogy ez a bejegyzés már több hónapos. Egyébként az ötlet ugyanaz. Lépjen a Launchpad oldalra, és keressen egy PPA-t, amely a Maverick pdfocr verzióit tartalmazza.
Egészségére! Pál.

Válaszoljon a Használjuk a Linuxot című cikkre
jvare dijo
ezelőtt 11 év

Nos, tesztelni kell, hogy lássuk, hogyan működik

Válasz Jvare-nek
Használjuk a Linuxot dijo
ezelőtt 11 év

Menj tovább! Mondja el nekünk, hogy sikeres volt-e !! Ha nem működik, akkor megpróbálhatunk segíteni Önnek is! Egészségére! Pál.

Válaszoljon a Használjuk a Linuxot című cikkre
a01653 dijo
ezelőtt 11 év

Helló,
Kipróbáltam a programot pdf-en, és az eredmény nem túl jó. Hozzászoktam a profi 8-as akrobatához, és valami hasonlót kerestem. Az Acrobat a segédprogramokat továbbítja a fájlokhoz, hogy megtisztítsák és kiegyenesítsék a beolvasott pdf-eket, és így jobb forráshoz jussanak az ocr számára. Tudja, hogy van erre megoldás.

Az üdvözlő

Válasz a01653-re
Használjuk a Linuxot dijo
ezelőtt 11 év

Helló! Körülbelül hallottam, hogy a Tesseract a legjobb nyílt forráskódú OCR. Nem tudom jó lesz-e. Emellett kissé be kell koszolnia a kezét, hogy működjön. Íme néhány utasítás. Ha sikeres vagy, kérlek, tudasd velem, mivel ha működik, akkor valószínűleg poszt lesz belőle.

Először telepítse a "tesseract 2.03-4" és az "imagemagick" csomagokat a Synaptic, az "xsane2tess" használatával a "http://download.tuxfamily.org/guadausers/guadaV4/" mappából.

Ezután hozza létre a tmp mappát: / home / felhasználónév / tmp

Ezután nyissa meg az Xsane konfigurálásához a Beállítások -> Konfiguráció -> OCR lapot, és töltse ki a következőket:

OCR parancs -> xsane2tess -l spa
Bemeneti fájl opció -> -i
Kimeneti fájl opció -> -o
Kimeneti opció -fd interfész -> -x

Az Xsane konfigurációiban az ideiglenes könyvtárat tartalmazó rész "mentése" lapján ellenőrizze, hogy ott van-e a "tmp" mappa, amelyet a "/ home / yourusername" könyvtárban hozott létre

Hagyok neked egy oldalt is, amely részletezi az OCR-t az Ubuntuban: https://help.ubuntu.com/community/OCR

Válaszoljon a Használjuk a Linuxot című cikkre
Használjuk a Linuxot dijo
ezelőtt 11 év

Egy másik módszer, amelyet felfedeztem x, a következő:

Feltéve, hogy a szkennert már csatlakoztatta és felismerte a rendszer

1. Megnyitom a Rendszer> Adminisztráció> Synaptic Package Manager alkalmazást (a GNOME-ban)

2. Megkeressem a keretrendszert a tesseract-ocr-spa (spanyol nyelvű szkennelés) és a gscan2pdf telepítéséhez

3. A beolvasáshoz nyissam meg az Applications> Graphics> gscan2pdf fájlt

És kész.

Válaszoljon a Használjuk a Linuxot című cikkre
Trubadúr dijo
ezelőtt 10 év

Hé barátom, köszönöm szépen, az az igazság, hogy a tesseract jó eszköz, de nagyon korlátozott a "problémás" szkennelésű könyvekhez képest. Másrészt ez a szoftver könnyebben alkalmazkodik ... 😀

Válasz Trovadordebarro-nak
Juan Anez dijo
ezelőtt 10 év

A képek digitalizálása során a PDF-A fájlokat konvertálják, ezeket OCR-sel kell ellátni. Mennyire érzékeny az eredményre a fekete-fehér vagy a szürkeárnyalatos szkennelés? Mi ajánlott?

Válasz juan anez-ra