วิธีสแกนเอกสารและใช้ OCR ใน Linux

คุณได้ลอง Simple Scan ซึ่งเป็นโปรแกรม Ubuntu เริ่มต้น แต่รู้สึกผิดหวังที่เห็นว่าไม่รองรับ OCR ฯลฯ หรือไม่? ในขณะเดียวกัน XSANE ซับซ้อนเกินไปสำหรับงานง่ายๆที่คุณกำหนดให้ทำหรือไม่? คุณพลาดความง่ายในการสแกนเอกสารด้วย Omnipage หรือไม่?

ไม่น่าแปลกใจเลย ... มาดูวิธีสแกนและดำเนินการ OCR ในเอกสารที่สแกนด้วยวิธีที่ง่ายมาก คุณจะประหลาดใจกับผลลัพธ์ที่ได้.

วิธีสแกนง่ายๆ 2 ขั้นตอน

1.- ติดตั้ง gscan2pdf & tesseract-ocr (พร้อมกับชุดภาษาที่เกี่ยวข้อง) กล่าวอีกนัยหนึ่งในกรณีที่คุณกำลังจะสแกนเอกสารเป็นภาษาอังกฤษให้ติดตั้ง tesseract-ocr-eng; หากเป็นภาษาสเปนให้ติดตั้ง tesseract-ocr-สปา และอื่น ๆ

sudo apt-get ติดตั้ง gscan2pdf tesseract-ocr tesseract-ocr-spa

2.- ส่วนที่เหลือค่อนข้างตรงไปตรงมาสำหรับผู้ที่เคยสแกนและ OCR เอกสารใน Windows ฉันเปิด gscan2pdfสแกนเอกสารไปที่ ตัวเลือก> OCR และเลือก Tesseract เป็นเครื่องยนต์ OCR มีเครื่องยนต์อื่น ๆ แต่ Tesseract เป็นเครื่องยนต์ที่มีประสิทธิภาพดีที่สุด สุดท้ายคุณสามารถบันทึกเอกสารสุดท้ายเป็น PDF, DJVU และอื่น ๆ กำลังจะ ไฟล์> บันทึก.

หมายเหตุ: เมื่อบันทึกเอกสารที่สแกนจะเป็นการดีกว่าที่จะบันทึกในรูปแบบ DJVU (คุณภาพจะเหมือนกับ PDF แต่มีขนาดที่แตกต่างกันที่สำคัญมาก)

วิดีโอต่อไปนี้เป็นภาษาอังกฤษ แต่ก็เพียงพอที่จะดูเพื่อทำความเข้าใจว่าทุกอย่างทำงานอย่างไร


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา

  1.   ไม่ระบุชื่อ dijo

    Alex: เกมเมอร์หลายคนมีปัญหาในการ«เพื่อนแบ่งโซน»กับผู้หญิงที่พวกเขาชอบ
    หลังจากอธิบายให้เมลิสซาสับสนว่าเขาไม่ใช่วัลโด
    แต่ Hon Ludovick Watson เธอตกลงที่จะไป
    อังกฤษ. คำถามของคุณต้องง่ายพอ
    สำหรับเธอที่จะตอบสนองโดยไม่ต้องคิดมาก

    นี่คือเว็บบล็อกของฉัน - เต่าของ Badass รีวิว

  2.   bachitux dijo

    โปรดสังเกตว่าแพ็คเกจนั้นมีจำหน่ายใน Fedora ด้วย 🙂

  3.   โบสถ์ dijo

    ฉันมีเครื่องสแกนสองเครื่องเครื่องหนึ่งคือ Canon Scan 5000f สำหรับเอกสาร A4 และอีกเครื่องคือ Braun NovoScan สำหรับสแกนเนกาทีฟและสไลด์ หลังจากติดตั้งยูทิลิตี้ gscan2 และรีบูตเครื่องคุณจะไม่เห็นเครื่องสแกนใด ๆ เกิดอะไรขึ้น? ทำไมคุณไม่เห็นเครื่องสแกน

  4.   มาใช้ Linux กันเถอะ dijo

    ไม่มีเพื่อนที่กระทำความผิด แต่ไม่มีประเด็นในฟังก์ชันคณิตศาสตร์ OCRing

    ไม่ว่าในกรณีใดพวกเขาควรทำ OCR กับข้อความโดยรอบ (ซึ่งอธิบายถึงฟังก์ชันเหล่านั้นหรืออะไรก็ตาม) และฟังก์ชันจะยังคงเป็นรูปภาพ
    ไชโย! พอล.

  5.   ไม่ใช่จากบรู๊คลิน dijo

    เฮ้ถ้าคุณคิดวิธีแก้ปัญหาของคุณได้ฉันก็อยากจะรู้

  6.   Juan Vallejo dijo

    ฉันคิดว่าฉันมาช้าไปหน่อย แต่ฉันมีคำถาม ฉันเป็นนักศึกษาวิศวกรรมและฉันกำลังมองหาวิธีการแปลงเป็นดิจิทัลและทำความสะอาดบันทึกย่อของฉัน แต่ปัญหาคือโน้ตส่วนใหญ่เต็มไปด้วยสัญลักษณ์กราฟและฟังก์ชันทางคณิตศาสตร์ ตอนนี้มีอะไรที่ช่วยฉันได้ไหม?

  7.   มาใช้ Linux กันเถอะ dijo

    เยี่ยมมาก! วันที่ดี! ใน Arch Tesseract อยู่ในที่เก็บอย่างเป็นทางการ แต่ไม่ใช่ gscan2pdf คุณต้องติดตั้งผ่าน yaourt

  8.   เอลคาลิมัน 13142 dijo

    ขอบคุณมากที่ช่วยฉันได้มากพวกเขาทำให้ linux เป็นมิตรมากขึ้นอีกครั้ง

  9.   มาใช้ Linux กันเถอะ dijo

    ยินดีต้อนรับ! เป็นเรื่องที่น่ายินดีที่ได้ช่วยเหลือ
    กอด! พอล.

  10.   นกนางแอ่น dijo

    ดีมากที่ฉันกำลังมองหาฉันจะพยายามและฉันจะบอกว่ามันเป็นอย่างไร

  11.   Mauro NicolásYbáñez Girard dijo

    ขอบคุณฉันจะพยายาม!

  12.   เลโอนาร์โดเฮอร์นันเดซ dijo

    เมื่อฉันไปรัน OCR ด้วยเอ็นจิ้น Tesseract มันจะให้ตัวเลือกของกระบวนการเป็นภาษาอังกฤษเท่านั้นแม้ว่าฉันจะติดตั้งแพ็คเกจ tesseract-ocr-spa ฉันจะทำอะไรได้บ้าง?

  13.   jaime และ isabel dijo

    ดาวน์โหลด gnscaner2pdf แต่ไม่สแกนมันค้นหาเฉพาะอุปกรณ์และไม่หยุดค้นหาหลังจาก 15 นาที ว่าไง?