كيفية التعرف الضوئي على الحروف في ملف PDF وتمكين تحديد النص والبحث

لنفترض أن لديك ملف PDF تم إنشاؤه باستخدام ماسح ضوئي ، أو أنه تم تمريره إليك ولكنه يحتوي على المعلومات في شكل صورة. يسمى الإجراء الذي يجب أن نرسل إليه ملف PDF المحبوب التعرف الضوئي على الحروف: عملية تحدد تلقائيًا الرموز أو الأحرف التي تنتمي إلى أبجدية معينة ، من صورة لتخزينها في شكل بيانات يمكننا التفاعل معها من خلال برنامج تحرير نص أو ما شابه.


يعد pdfocr أداة بسيطة تنشئ ملف PDF جديدًا بطبقة نصية مضمنة ، مما يسمح للمستخدم بتحديد النص والبحث عن الكلمات فيه ، دون تغيير الشكل النهائي لملف PDF.

ما هو pdfocr ليس من أجل:

يعمل هذا فقط إذا كان ملف PDF يحتوي على المعلومات في شكل صورة ؛ إذا قمت بتصدير ملف PDF من OpenOffice ، فإنه يحتوي بالفعل على طبقة نصية مضمنة ، لذا فإن هذا الإجراء غير ضروري.

كيفية تثبيت pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
سودو الرابطة بين الحصول على التحديث
sudo apt-get قم بتثبيت pdfocr

كيفية استخدام pdfocr:

افتح Terminal ، وانتقل إلى الدليل حيث يوجد ملف PDF الذي تريد تحويله ، وأدخل ما يلي (استبدل input.pdf بملف PDF الذي تريد تحويله والإخراج. pdf باسم الملف الجديد بطبقة النص المضمنة)

pdfocr -i input.pdf -oput.pdf

انتظر حتى يتم تنفيذ OCR على كل صفحة من صفحات ملف PDF الخاص بك وحتى يتم إنشاء الملف المعدل النهائي. يجب أن يستغرق هذا بضع ثوانٍ لكل صفحة ، اعتمادًا على دقة ملف PDF الخاص بك.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.

  1.   رودولفو لارا قال

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    قراءة قائمة الحزم ... انتهى
    إنشاء شجرة التبعية
    قراءة معلومات الحالة ... انتهى
    E: تعذر تحديد موقع حزمة pdfocr
    Rodolfo @ rodolfo-desktop: ~ $

  2.   لنستخدم لينكس قال

    هل تأكدت من إضافة PPA المقابل؟
    من المحتمل أن تحتوي PPA على إصدارات من pdfocr لإصدارات Ubuntu الأقدم. أعتقد أن هذا المنشور قد مضى عليه بالفعل عدة أشهر. على أي حال ، الفكرة هي نفسها. انتقل إلى Launchpad وابحث عن PPA يحتوي على إصدارات pdfocr لـ Maverick.
    في صحتك! بول.

  3.   جفاري قال

    حسنًا ، ستكون مسألة اختبارها لمعرفة كيفية عملها

  4.   لنستخدم لينكس قال

    إنطلق! أخبرنا إذا كنت ناجحًا !! إذا لم ينجح الأمر ، فيمكننا أيضًا محاولة مساعدتك! في صحتك! بول.

  5.   a01653 قال

    مرحبا،
    لقد اختبرت البرنامج على ملف pdf والنتيجة ليست جيدة جدًا. لقد اعتدت على البهلوان المحترف 8 وكنت أبحث عن شيء مشابه. يمرر Acrobat الأدوات المساعدة إلى الملفات لتنظيف وتقويم ملفات PDF الممسوحة ضوئيًا وبالتالي الحصول على مصدر أفضل لـ OCR. هل تعرف ما إذا كان هناك حل لهذا.

    تحيات

  6.   لنستخدم لينكس قال

    مرحبا! لقد سمعت أن Tesseract هو أفضل OCR مفتوح المصدر. لا أعرف ما إذا كان سيكون جيدًا. أيضًا ، عليك أن تتسخ يديك قليلاً حتى تعمل. فيما يلي بعض التعليمات. إذا كنت ناجحًا ، فيرجى إبلاغي بذلك لأنه إذا نجحت ، فمن المحتمل أن ينتهي بك الأمر لتصبح مشاركة.

    قم أولاً بتثبيت الحزم "tesseract 2.03-4" و "imagemagick" باستخدام Synaptic ، "xsane2tess" من "http://download.tuxfamily.org/guadausers/guadaV4/".

    ثم أنشئ مجلد tmp في: / home / yourusername / tmp

    ثم افتح Xsane لتكوينه ، Preferences–> Configuration–> علامة التبويب OCR واملأ ما يلي:

    أمر OCR -> xsane2tess -l spa
    خيار ملف الإدخال -> -i
    خيار ملف الإخراج -> -o
    خيار الإخراج - واجهة fd -> -x

    في تكوينات Xsane في علامة التبويب "حفظ" في الجزء حيث يشير إلى الدليل المؤقت ، تأكد من وجود مجلد "tmp" الذي أنشأته في "/ home / yourusername"

    أترك لك أيضًا صفحة تحتوي على تفاصيل حول كيفية التعرف الضوئي على الحروف في أوبونتو: https://help.ubuntu.com/community/OCR

  7.   لنستخدم لينكس قال

    طريقة أخرى اكتشفتها x وهي ما يلي:

    بافتراض أن الماسح تم توصيله بالفعل والتعرف عليه من قبل النظام

    1. أفتح System> Administration> Synaptic Package Manager (في جنوم)

    2. ابحث عن إطار عمل لتثبيت tesseract-ocr-spa (للمسح باللغة الإسبانية) و gscan2pdf

    3. للمسح الضوئي ، افتح التطبيقات> الرسومات> gscan2pdf

    و مستعد.

  8.   تروبادور قال

    مرحبًا يا صديقي ، شكرًا جزيلاً لك ، الحقيقة هي أن tesseract أداة جيدة ، ولكنها محدودة جدًا مقارنة بالكتب ذات المسح الضوئي "الإشكالي". من ناحية أخرى ، يتكيف هذا البرنامج بسهولة أكبر ... 😀

  9.   خوان أنيز قال

    في عملية رقمنة الصور ، يتم تحويل ملفات PDF-A ، يجب أن تكون OCRed. ما مدى حساسية المسح الضوئي للنتيجة بالأبيض والأسود أو بتدرج الرمادي؟ ما هو الموصى به؟