วิธี OCR PDF และเปิดใช้งานการเลือกข้อความและการค้นหา

วิธี OCR PDF และเปิดใช้งานการเลือกและค้นหาข้อความ

สมมติว่าคุณมี PDF ที่สร้างโดยใช้สแกนเนอร์หรือส่งให้คุณ แต่มีข้อมูลในรูปแบบของรูปภาพ. ขั้นตอนที่เราต้องส่ง PDF ที่เรารักเรียกว่า OCR: กระบวนการที่ระบุสัญลักษณ์หรืออักขระที่เป็นของตัวอักษรบางตัวโดยอัตโนมัติจากรูปภาพเพื่อจัดเก็บในรูปแบบของข้อมูลที่เราสามารถโต้ตอบผ่านโปรแกรมแก้ไขข้อความหรือสิ่งที่คล้ายกัน

pdfocr เป็นเครื่องมือง่ายๆที่สร้าง PDF ใหม่พร้อมเลเยอร์ข้อความที่ฝังไว้ช่วยให้ผู้ใช้สามารถเลือกข้อความและค้นหาคำในนั้นได้โดยไม่ต้องเปลี่ยนรูปลักษณ์สุดท้ายของ PDF

pdfocr ไม่ได้มีไว้สำหรับ:

สิ่งนี้ใช้ได้เฉพาะในกรณีที่ PDF มีข้อมูลในรูปแบบรูปภาพ หากคุณส่งออก PDF จาก OpenOffice แสดงว่ามีเลเยอร์ข้อความที่ฝังอยู่แล้วดังนั้นขั้นตอนนี้จึงไม่จำเป็น

วิธีติดตั้ง pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo ปรับปรุง apt-get
sudo apt-get ติดตั้ง pdfocr

วิธีใช้ pdfocr:

เปิดเทอร์มินัลไปที่ไดเร็กทอรีที่มี PDF ที่คุณต้องการแปลงอยู่และป้อนข้อมูลต่อไปนี้ (แทนที่ input.pdf ด้วย PDF ที่คุณต้องการแปลงและ output.pdf ด้วยชื่อของไฟล์ใหม่ที่มีเลเยอร์ข้อความที่ฝังอยู่ )

pdfocr -i input.pdf -o เอาท์พุท.pdf

รอให้แต่ละหน้าของ PDF ของคุณได้รับการฝึกฝน OCR และไฟล์ที่แก้ไขขั้นสุดท้ายจะถูกสร้างขึ้น ขั้นตอนนี้จะใช้เวลาสองสามวินาทีต่อหน้าขึ้นอยู่กับความละเอียดของ PDF ของคุณ

แสดงความคิดเห็นของคุณ ยกเลิกการตอบ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

คิดเห็น *

ชื่อ*

จดหมายอิเล็กทรอนิกส์*

ฉันยอมรับ ข้อกำหนดความเป็นส่วนตัว*

ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา

ฉันต้องการรับจดหมายข่าว

โรดอล์ฟโฟ ลาร่า dijo
มาแล้ว ปี 11

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
กำลังอ่านรายการแพ็คเกจ ...
การสร้างแผนผังการพึ่งพา
กำลังอ่านข้อมูลสถานะ ...
E: ไม่พบแพ็คเกจ pdfocr
rodolfo @ rodolfo-desktop: ~ $

ตอบกลับ Rodolfo Lara
มาใช้ Linux กันเถอะ dijo
มาแล้ว ปี 11

คุณแน่ใจหรือไม่ว่าได้เพิ่ม PPA ที่เกี่ยวข้อง
PPA นี้น่าจะมี pdfocr เวอร์ชันสำหรับ Ubuntu รุ่นเก่ากว่า คิดว่ากระทู้นี้คงหลายเดือนแล้ว ยังไงก็คิดเหมือนกัน ไปที่ Launchpad และมองหา PPA ที่มี pdfocr เวอร์ชันสำหรับ Maverick
ไชโย! พอล.

ตอบสนองต่อ Let's Use Linux
เจวาเร dijo
มาแล้ว ปี 11

จะเป็นเรื่องของการทดสอบเพื่อดูว่ามันทำงานอย่างไร

ตอบกลับ Jvare
มาใช้ Linux กันเถอะ dijo
มาแล้ว ปี 11

ลุย! แจ้งให้เราทราบหากคุณประสบความสำเร็จ !! หากไม่ได้ผลเราสามารถช่วยคุณได้! ไชโย! พอล.

ตอบสนองต่อ Let's Use Linux
a01653 dijo
มาแล้ว ปี 11

สวัสดี
ฉันได้ทดสอบโปรแกรมบน pdf แล้วและผลลัพธ์ก็ไม่ดีนัก ฉันคุ้นเคยกับ acrobat 8 มืออาชีพและกำลังมองหาสิ่งที่คล้ายกัน Acrobat ส่งยูทิลิตี้ไปยังไฟล์เพื่อล้างและทำให้ไฟล์ PDF ที่สแกนตรงและรับแหล่งที่ดีกว่าสำหรับ ocr คุณจะรู้ว่ามีวิธีแก้ปัญหานี้หรือไม่

อาศิรพจน์

ตอบกลับ a01653
มาใช้ Linux กันเถอะ dijo
มาแล้ว ปี 11

สวัสดี! ฉันได้ยินมาว่า Tesseract เป็นโอเพนซอร์ส OCR ที่ดีที่สุด ไม่รู้จะดีรึเปล่า นอกจากนี้คุณต้องทำให้มือของคุณสกปรกเล็กน้อยเพื่อให้ใช้งานได้ นี่คือคำแนะนำบางส่วน หากคุณประสบความสำเร็จโปรดแจ้งให้เราทราบเนื่องจากถ้ามันใช้งานได้มันอาจจะกลายเป็นโพสต์

ขั้นแรกให้ติดตั้งแพ็คเกจ "tesseract 2.03-4" และ "imagemagick" โดยใช้ Synaptic, "xsane2tess" จาก "http://download.tuxfamily.org/guadausers/guadaV4/"

จากนั้นสร้างโฟลเดอร์ tmp ใน: / home / yourusername / tmp

จากนั้นเปิด Xsane เพื่อกำหนดค่าแท็บ Preferences–> Configuration–> OCR และกรอกข้อมูลต่อไปนี้:

คำสั่ง OCR -> xsane2tess -l spa
ตัวเลือกไฟล์อินพุต -> -i
ตัวเลือกไฟล์เอาต์พุต -> -o
ตัวเลือกเอาต์พุต -fd interface -> -x

ในการกำหนดค่า Xsane ในแท็บ "บันทึก" ในส่วนที่ระบุว่าไดเรกทอรีชั่วคราวตรวจสอบให้แน่ใจว่ามีโฟลเดอร์ "tmp" ที่คุณสร้างไว้ใน "/ home / yourusername"

ฉันยังฝากหน้าคุณพร้อมรายละเอียดเกี่ยวกับวิธีการทำ OCR ใน Ubuntu: https://help.ubuntu.com/community/OCR

ตอบสนองต่อ Let's Use Linux
มาใช้ Linux กันเถอะ dijo
มาแล้ว ปี 11

อีกวิธีหนึ่งที่ฉันค้นพบ x มีดังต่อไปนี้:

สมมติว่าเครื่องสแกนได้เชื่อมต่อและรู้จักระบบแล้ว

1. ฉันเปิดระบบ> การดูแลระบบ> Synaptic Package Manager (ใน GNOME)

2. ค้นหาและกรอบการติดตั้ง tesseract-ocr-spa (เพื่อสแกนเป็นภาษาสเปน) และ gscan2pdf

3. ในการสแกนฉันเปิด Applications> Graphics> gscan2pdf

และพร้อม.

ตอบสนองต่อ Let's Use Linux
Troubadour dijo
มาแล้ว ปี 10

สวัสดีเพื่อนขอบคุณมากความจริงก็คือ tesseract เป็นเครื่องมือที่ดี แต่มีข้อ จำกัด มากเมื่อเทียบกับหนังสือที่มีการสแกน "มีปัญหา" ในทางกลับกันซอฟต์แวร์นี้ปรับตัวได้ง่ายกว่า ... 😀

ตอบกลับ Trovadordebarro
Juan Anez dijo
มาแล้ว ปี 10

ในกระบวนการแปลงรูปภาพเป็นดิจิทัลไฟล์ PDF-A จะถูกแปลงไฟล์เหล่านี้จะต้องเป็น OCRed ความไวต่อผลลัพธ์ในการสแกนเป็นสีดำและสีขาวหรือสีเทา? มีอะไรแนะนำ?

ตอบกลับ juan anez