สมมติว่าคุณมี PDF ที่สร้างโดยใช้สแกนเนอร์หรือส่งให้คุณ แต่มีข้อมูลในรูปแบบของรูปภาพ. ขั้นตอนที่เราต้องส่ง PDF ที่เรารักเรียกว่า OCR: กระบวนการที่ระบุสัญลักษณ์หรืออักขระที่เป็นของตัวอักษรบางตัวโดยอัตโนมัติจากรูปภาพเพื่อจัดเก็บในรูปแบบของข้อมูลที่เราสามารถโต้ตอบผ่านโปรแกรมแก้ไขข้อความหรือสิ่งที่คล้ายกัน |
pdfocr เป็นเครื่องมือง่ายๆที่สร้าง PDF ใหม่พร้อมเลเยอร์ข้อความที่ฝังไว้ช่วยให้ผู้ใช้สามารถเลือกข้อความและค้นหาคำในนั้นได้โดยไม่ต้องเปลี่ยนรูปลักษณ์สุดท้ายของ PDF
pdfocr ไม่ได้มีไว้สำหรับ:
สิ่งนี้ใช้ได้เฉพาะในกรณีที่ PDF มีข้อมูลในรูปแบบรูปภาพ หากคุณส่งออก PDF จาก OpenOffice แสดงว่ามีเลเยอร์ข้อความที่ฝังอยู่แล้วดังนั้นขั้นตอนนี้จึงไม่จำเป็น
วิธีติดตั้ง pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo ปรับปรุง apt-get
sudo apt-get ติดตั้ง pdfocr
วิธีใช้ pdfocr:
เปิดเทอร์มินัลไปที่ไดเร็กทอรีที่มี PDF ที่คุณต้องการแปลงอยู่และป้อนข้อมูลต่อไปนี้ (แทนที่ input.pdf ด้วย PDF ที่คุณต้องการแปลงและ output.pdf ด้วยชื่อของไฟล์ใหม่ที่มีเลเยอร์ข้อความที่ฝังอยู่ )
pdfocr -i input.pdf -o เอาท์พุท.pdf
รอให้แต่ละหน้าของ PDF ของคุณได้รับการฝึกฝน OCR และไฟล์ที่แก้ไขขั้นสุดท้ายจะถูกสร้างขึ้น ขั้นตอนนี้จะใช้เวลาสองสามวินาทีต่อหน้าขึ้นอยู่กับความละเอียดของ PDF ของคุณ
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
กำลังอ่านรายการแพ็คเกจ ...
การสร้างแผนผังการพึ่งพา
กำลังอ่านข้อมูลสถานะ ...
E: ไม่พบแพ็คเกจ pdfocr
rodolfo @ rodolfo-desktop: ~ $
คุณแน่ใจหรือไม่ว่าได้เพิ่ม PPA ที่เกี่ยวข้อง
PPA นี้น่าจะมี pdfocr เวอร์ชันสำหรับ Ubuntu รุ่นเก่ากว่า คิดว่ากระทู้นี้คงหลายเดือนแล้ว ยังไงก็คิดเหมือนกัน ไปที่ Launchpad และมองหา PPA ที่มี pdfocr เวอร์ชันสำหรับ Maverick
ไชโย! พอล.
จะเป็นเรื่องของการทดสอบเพื่อดูว่ามันทำงานอย่างไร
ลุย! แจ้งให้เราทราบหากคุณประสบความสำเร็จ !! หากไม่ได้ผลเราสามารถช่วยคุณได้! ไชโย! พอล.
สวัสดี
ฉันได้ทดสอบโปรแกรมบน pdf แล้วและผลลัพธ์ก็ไม่ดีนัก ฉันคุ้นเคยกับ acrobat 8 มืออาชีพและกำลังมองหาสิ่งที่คล้ายกัน Acrobat ส่งยูทิลิตี้ไปยังไฟล์เพื่อล้างและทำให้ไฟล์ PDF ที่สแกนตรงและรับแหล่งที่ดีกว่าสำหรับ ocr คุณจะรู้ว่ามีวิธีแก้ปัญหานี้หรือไม่
อาศิรพจน์
สวัสดี! ฉันได้ยินมาว่า Tesseract เป็นโอเพนซอร์ส OCR ที่ดีที่สุด ไม่รู้จะดีรึเปล่า นอกจากนี้คุณต้องทำให้มือของคุณสกปรกเล็กน้อยเพื่อให้ใช้งานได้ นี่คือคำแนะนำบางส่วน หากคุณประสบความสำเร็จโปรดแจ้งให้เราทราบเนื่องจากถ้ามันใช้งานได้มันอาจจะกลายเป็นโพสต์
ขั้นแรกให้ติดตั้งแพ็คเกจ "tesseract 2.03-4" และ "imagemagick" โดยใช้ Synaptic, "xsane2tess" จาก "http://download.tuxfamily.org/guadausers/guadaV4/"
จากนั้นสร้างโฟลเดอร์ tmp ใน: / home / yourusername / tmp
จากนั้นเปิด Xsane เพื่อกำหนดค่าแท็บ Preferences–> Configuration–> OCR และกรอกข้อมูลต่อไปนี้:
คำสั่ง OCR -> xsane2tess -l spa
ตัวเลือกไฟล์อินพุต -> -i
ตัวเลือกไฟล์เอาต์พุต -> -o
ตัวเลือกเอาต์พุต -fd interface -> -x
ในการกำหนดค่า Xsane ในแท็บ "บันทึก" ในส่วนที่ระบุว่าไดเรกทอรีชั่วคราวตรวจสอบให้แน่ใจว่ามีโฟลเดอร์ "tmp" ที่คุณสร้างไว้ใน "/ home / yourusername"
ฉันยังฝากหน้าคุณพร้อมรายละเอียดเกี่ยวกับวิธีการทำ OCR ใน Ubuntu: https://help.ubuntu.com/community/OCR
อีกวิธีหนึ่งที่ฉันค้นพบ x มีดังต่อไปนี้:
สมมติว่าเครื่องสแกนได้เชื่อมต่อและรู้จักระบบแล้ว
1. ฉันเปิดระบบ> การดูแลระบบ> Synaptic Package Manager (ใน GNOME)
2. ค้นหาและกรอบการติดตั้ง tesseract-ocr-spa (เพื่อสแกนเป็นภาษาสเปน) และ gscan2pdf
3. ในการสแกนฉันเปิด Applications> Graphics> gscan2pdf
และพร้อม.
สวัสดีเพื่อนขอบคุณมากความจริงก็คือ tesseract เป็นเครื่องมือที่ดี แต่มีข้อ จำกัด มากเมื่อเทียบกับหนังสือที่มีการสแกน "มีปัญหา" ในทางกลับกันซอฟต์แวร์นี้ปรับตัวได้ง่ายกว่า ... 😀
ในกระบวนการแปลงรูปภาพเป็นดิจิทัลไฟล์ PDF-A จะถูกแปลงไฟล์เหล่านี้จะต้องเป็น OCRed ความไวต่อผลลัพธ์ในการสแกนเป็นสีดำและสีขาวหรือสีเทา? มีอะไรแนะนำ?