วิธี OCR PDF และเปิดใช้งานการเลือกและค้นหาข้อความ

สมมติว่าคุณมี PDF ที่สร้างโดยใช้สแกนเนอร์หรือส่งให้คุณ แต่มีข้อมูลในรูปแบบของรูปภาพ. ขั้นตอนที่เราต้องส่ง PDF ที่เรารักเรียกว่า OCR: กระบวนการที่ระบุสัญลักษณ์หรืออักขระที่เป็นของตัวอักษรบางตัวโดยอัตโนมัติจากรูปภาพเพื่อจัดเก็บในรูปแบบของข้อมูลที่เราสามารถโต้ตอบผ่านโปรแกรมแก้ไขข้อความหรือสิ่งที่คล้ายกัน


pdfocr เป็นเครื่องมือง่ายๆที่สร้าง PDF ใหม่พร้อมเลเยอร์ข้อความที่ฝังไว้ช่วยให้ผู้ใช้สามารถเลือกข้อความและค้นหาคำในนั้นได้โดยไม่ต้องเปลี่ยนรูปลักษณ์สุดท้ายของ PDF

pdfocr ไม่ได้มีไว้สำหรับ:

สิ่งนี้ใช้ได้เฉพาะในกรณีที่ PDF มีข้อมูลในรูปแบบรูปภาพ หากคุณส่งออก PDF จาก OpenOffice แสดงว่ามีเลเยอร์ข้อความที่ฝังอยู่แล้วดังนั้นขั้นตอนนี้จึงไม่จำเป็น

วิธีติดตั้ง pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo ปรับปรุง apt-get
sudo apt-get ติดตั้ง pdfocr

วิธีใช้ pdfocr:

เปิดเทอร์มินัลไปที่ไดเร็กทอรีที่มี PDF ที่คุณต้องการแปลงอยู่และป้อนข้อมูลต่อไปนี้ (แทนที่ input.pdf ด้วย PDF ที่คุณต้องการแปลงและ output.pdf ด้วยชื่อของไฟล์ใหม่ที่มีเลเยอร์ข้อความที่ฝังอยู่ )

pdfocr -i input.pdf -o เอาท์พุท.pdf

รอให้แต่ละหน้าของ PDF ของคุณได้รับการฝึกฝน OCR และไฟล์ที่แก้ไขขั้นสุดท้ายจะถูกสร้างขึ้น ขั้นตอนนี้จะใช้เวลาสองสามวินาทีต่อหน้าขึ้นอยู่กับความละเอียดของ PDF ของคุณ


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา

  1.   โรดอล์ฟโฟ ลาร่า dijo

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    กำลังอ่านรายการแพ็คเกจ ...
    การสร้างแผนผังการพึ่งพา
    กำลังอ่านข้อมูลสถานะ ...
    E: ไม่พบแพ็คเกจ pdfocr
    rodolfo @ rodolfo-desktop: ~ $

  2.   มาใช้ Linux กันเถอะ dijo

    คุณแน่ใจหรือไม่ว่าได้เพิ่ม PPA ที่เกี่ยวข้อง
    PPA นี้น่าจะมี pdfocr เวอร์ชันสำหรับ Ubuntu รุ่นเก่ากว่า คิดว่ากระทู้นี้คงหลายเดือนแล้ว ยังไงก็คิดเหมือนกัน ไปที่ Launchpad และมองหา PPA ที่มี pdfocr เวอร์ชันสำหรับ Maverick
    ไชโย! พอล.

  3.   เจวาเร dijo

    จะเป็นเรื่องของการทดสอบเพื่อดูว่ามันทำงานอย่างไร

  4.   มาใช้ Linux กันเถอะ dijo

    ลุย! แจ้งให้เราทราบหากคุณประสบความสำเร็จ !! หากไม่ได้ผลเราสามารถช่วยคุณได้! ไชโย! พอล.

  5.   a01653 dijo

    สวัสดี
    ฉันได้ทดสอบโปรแกรมบน pdf แล้วและผลลัพธ์ก็ไม่ดีนัก ฉันคุ้นเคยกับ acrobat 8 ​​มืออาชีพและกำลังมองหาสิ่งที่คล้ายกัน Acrobat ส่งยูทิลิตี้ไปยังไฟล์เพื่อล้างและทำให้ไฟล์ PDF ที่สแกนตรงและรับแหล่งที่ดีกว่าสำหรับ ocr คุณจะรู้ว่ามีวิธีแก้ปัญหานี้หรือไม่

    อาศิรพจน์

  6.   มาใช้ Linux กันเถอะ dijo

    สวัสดี! ฉันได้ยินมาว่า Tesseract เป็นโอเพนซอร์ส OCR ที่ดีที่สุด ไม่รู้จะดีรึเปล่า นอกจากนี้คุณต้องทำให้มือของคุณสกปรกเล็กน้อยเพื่อให้ใช้งานได้ นี่คือคำแนะนำบางส่วน หากคุณประสบความสำเร็จโปรดแจ้งให้เราทราบเนื่องจากถ้ามันใช้งานได้มันอาจจะกลายเป็นโพสต์

    ขั้นแรกให้ติดตั้งแพ็คเกจ "tesseract 2.03-4" และ "imagemagick" โดยใช้ Synaptic, "xsane2tess" จาก "http://download.tuxfamily.org/guadausers/guadaV4/"

    จากนั้นสร้างโฟลเดอร์ tmp ใน: / home / yourusername / tmp

    จากนั้นเปิด Xsane เพื่อกำหนดค่าแท็บ Preferences–> Configuration–> OCR และกรอกข้อมูลต่อไปนี้:

    คำสั่ง OCR -> xsane2tess -l spa
    ตัวเลือกไฟล์อินพุต -> -i
    ตัวเลือกไฟล์เอาต์พุต -> -o
    ตัวเลือกเอาต์พุต -fd interface -> -x

    ในการกำหนดค่า Xsane ในแท็บ "บันทึก" ในส่วนที่ระบุว่าไดเรกทอรีชั่วคราวตรวจสอบให้แน่ใจว่ามีโฟลเดอร์ "tmp" ที่คุณสร้างไว้ใน "/ home / yourusername"

    ฉันยังฝากหน้าคุณพร้อมรายละเอียดเกี่ยวกับวิธีการทำ OCR ใน Ubuntu: https://help.ubuntu.com/community/OCR

  7.   มาใช้ Linux กันเถอะ dijo

    อีกวิธีหนึ่งที่ฉันค้นพบ x มีดังต่อไปนี้:

    สมมติว่าเครื่องสแกนได้เชื่อมต่อและรู้จักระบบแล้ว

    1. ฉันเปิดระบบ> การดูแลระบบ> Synaptic Package Manager (ใน GNOME)

    2. ค้นหาและกรอบการติดตั้ง tesseract-ocr-spa (เพื่อสแกนเป็นภาษาสเปน) และ gscan2pdf

    3. ในการสแกนฉันเปิด Applications> Graphics> gscan2pdf

    และพร้อม.

  8.   Troubadour dijo

    สวัสดีเพื่อนขอบคุณมากความจริงก็คือ tesseract เป็นเครื่องมือที่ดี แต่มีข้อ จำกัด มากเมื่อเทียบกับหนังสือที่มีการสแกน "มีปัญหา" ในทางกลับกันซอฟต์แวร์นี้ปรับตัวได้ง่ายกว่า ... 😀

  9.   Juan Anez dijo

    ในกระบวนการแปลงรูปภาพเป็นดิจิทัลไฟล์ PDF-A จะถูกแปลงไฟล์เหล่านี้จะต้องเป็น OCRed ความไวต่อผลลัพธ์ในการสแกนเป็นสีดำและสีขาวหรือสีเทา? มีอะไรแนะนำ?