كيفية التعرف الضوئي على الحروف لملف PDF وتمكين تحديد النص والبحث

كيفية التعرف الضوئي على الحروف في ملف PDF وتمكين تحديد النص والبحث

لنفترض أن لديك ملف PDF تم إنشاؤه باستخدام ماسح ضوئي ، أو أنه تم تمريره إليك ولكنه يحتوي على المعلومات في شكل صورة. يسمى الإجراء الذي يجب أن نرسل إليه ملف PDF المحبوب التعرف الضوئي على الحروف: عملية تحدد تلقائيًا الرموز أو الأحرف التي تنتمي إلى أبجدية معينة ، من صورة لتخزينها في شكل بيانات يمكننا التفاعل معها من خلال برنامج تحرير نص أو ما شابه.

يعد pdfocr أداة بسيطة تنشئ ملف PDF جديدًا بطبقة نصية مضمنة ، مما يسمح للمستخدم بتحديد النص والبحث عن الكلمات فيه ، دون تغيير الشكل النهائي لملف PDF.

ما هو pdfocr ليس من أجل:

يعمل هذا فقط إذا كان ملف PDF يحتوي على المعلومات في شكل صورة ؛ إذا قمت بتصدير ملف PDF من OpenOffice ، فإنه يحتوي بالفعل على طبقة نصية مضمنة ، لذا فإن هذا الإجراء غير ضروري.

كيفية تثبيت pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
سودو الرابطة بين الحصول على التحديث
sudo apt-get قم بتثبيت pdfocr

كيفية استخدام pdfocr:

افتح Terminal ، وانتقل إلى الدليل حيث يوجد ملف PDF الذي تريد تحويله ، وأدخل ما يلي (استبدل input.pdf بملف PDF الذي تريد تحويله والإخراج. pdf باسم الملف الجديد بطبقة النص المضمنة)

pdfocr -i input.pdf -oput.pdf

انتظر حتى يتم تنفيذ OCR على كل صفحة من صفحات ملف PDF الخاص بك وحتى يتم إنشاء الملف المعدل النهائي. يجب أن يستغرق هذا بضع ثوانٍ لكل صفحة ، اعتمادًا على دقة ملف PDF الخاص بك.

اترك تعليقك الغاء الرد

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

تعليق *

اسم*

البريد الإلكتروني*

أقبل شروط الخصوصية*

المسؤول عن البيانات: ميغيل أنخيل جاتون
الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
الشرعية: موافقتك
توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.

أنا ترغب في الحصول على النشرة الإخبارية

رودولفو لارا قال
منذ سنوات 11

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
قراءة قائمة الحزم ... انتهى
إنشاء شجرة التبعية
قراءة معلومات الحالة ... انتهى
E: تعذر تحديد موقع حزمة pdfocr
Rodolfo @ rodolfo-desktop: ~ $

الرد على رودولفو لارا
لنستخدم لينكس قال
منذ سنوات 11

هل تأكدت من إضافة PPA المقابل؟
من المحتمل أن تحتوي PPA على إصدارات من pdfocr لإصدارات Ubuntu الأقدم. أعتقد أن هذا المنشور قد مضى عليه بالفعل عدة أشهر. على أي حال ، الفكرة هي نفسها. انتقل إلى Launchpad وابحث عن PPA يحتوي على إصدارات pdfocr لـ Maverick.
في صحتك! بول.

استجب لنستخدم لينكس
جفاري قال
منذ سنوات 11

حسنًا ، ستكون مسألة اختبارها لمعرفة كيفية عملها

الرد على Jvare
لنستخدم لينكس قال
منذ سنوات 11

إنطلق! أخبرنا إذا كنت ناجحًا !! إذا لم ينجح الأمر ، فيمكننا أيضًا محاولة مساعدتك! في صحتك! بول.

استجب لنستخدم لينكس
a01653 قال
منذ سنوات 11

مرحبا،
لقد اختبرت البرنامج على ملف pdf والنتيجة ليست جيدة جدًا. لقد اعتدت على البهلوان المحترف 8 وكنت أبحث عن شيء مشابه. يمرر Acrobat الأدوات المساعدة إلى الملفات لتنظيف وتقويم ملفات PDF الممسوحة ضوئيًا وبالتالي الحصول على مصدر أفضل لـ OCR. هل تعرف ما إذا كان هناك حل لهذا.

تحيات

الرد على a01653
لنستخدم لينكس قال
منذ سنوات 11

مرحبا! لقد سمعت أن Tesseract هو أفضل OCR مفتوح المصدر. لا أعرف ما إذا كان سيكون جيدًا. أيضًا ، عليك أن تتسخ يديك قليلاً حتى تعمل. فيما يلي بعض التعليمات. إذا كنت ناجحًا ، فيرجى إبلاغي بذلك لأنه إذا نجحت ، فمن المحتمل أن ينتهي بك الأمر لتصبح مشاركة.

قم أولاً بتثبيت الحزم "tesseract 2.03-4" و "imagemagick" باستخدام Synaptic ، "xsane2tess" من "http://download.tuxfamily.org/guadausers/guadaV4/".

ثم أنشئ مجلد tmp في: / home / yourusername / tmp

ثم افتح Xsane لتكوينه ، Preferences–> Configuration–> علامة التبويب OCR واملأ ما يلي:

أمر OCR -> xsane2tess -l spa
خيار ملف الإدخال -> -i
خيار ملف الإخراج -> -o
خيار الإخراج - واجهة fd -> -x

في تكوينات Xsane في علامة التبويب "حفظ" في الجزء حيث يشير إلى الدليل المؤقت ، تأكد من وجود مجلد "tmp" الذي أنشأته في "/ home / yourusername"

أترك لك أيضًا صفحة تحتوي على تفاصيل حول كيفية التعرف الضوئي على الحروف في أوبونتو: https://help.ubuntu.com/community/OCR

استجب لنستخدم لينكس
لنستخدم لينكس قال
منذ سنوات 11

طريقة أخرى اكتشفتها x وهي ما يلي:

بافتراض أن الماسح تم توصيله بالفعل والتعرف عليه من قبل النظام

1. أفتح System> Administration> Synaptic Package Manager (في جنوم)

2. ابحث عن إطار عمل لتثبيت tesseract-ocr-spa (للمسح باللغة الإسبانية) و gscan2pdf

3. للمسح الضوئي ، افتح التطبيقات> الرسومات> gscan2pdf

و مستعد.

استجب لنستخدم لينكس
تروبادور قال
منذ سنوات 10

مرحبًا يا صديقي ، شكرًا جزيلاً لك ، الحقيقة هي أن tesseract أداة جيدة ، ولكنها محدودة جدًا مقارنة بالكتب ذات المسح الضوئي "الإشكالي". من ناحية أخرى ، يتكيف هذا البرنامج بسهولة أكبر ... 😀

الرد على Trovadordebarro
خوان أنيز قال
منذ سنوات 10

في عملية رقمنة الصور ، يتم تحويل ملفات PDF-A ، يجب أن تكون OCRed. ما مدى حساسية المسح الضوئي للنتيجة بالأبيض والأسود أو بتدرج الرمادي؟ ما هو الموصى به؟

الرد على خوان أنيز