لنفترض أن لديك ملف PDF تم إنشاؤه باستخدام ماسح ضوئي ، أو أنه تم تمريره إليك ولكنه يحتوي على المعلومات في شكل صورة. يسمى الإجراء الذي يجب أن نرسل إليه ملف PDF المحبوب التعرف الضوئي على الحروف: عملية تحدد تلقائيًا الرموز أو الأحرف التي تنتمي إلى أبجدية معينة ، من صورة لتخزينها في شكل بيانات يمكننا التفاعل معها من خلال برنامج تحرير نص أو ما شابه. |
يعد pdfocr أداة بسيطة تنشئ ملف PDF جديدًا بطبقة نصية مضمنة ، مما يسمح للمستخدم بتحديد النص والبحث عن الكلمات فيه ، دون تغيير الشكل النهائي لملف PDF.
ما هو pdfocr ليس من أجل:
يعمل هذا فقط إذا كان ملف PDF يحتوي على المعلومات في شكل صورة ؛ إذا قمت بتصدير ملف PDF من OpenOffice ، فإنه يحتوي بالفعل على طبقة نصية مضمنة ، لذا فإن هذا الإجراء غير ضروري.
كيفية تثبيت pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
سودو الرابطة بين الحصول على التحديث
sudo apt-get قم بتثبيت pdfocr
كيفية استخدام pdfocr:
افتح Terminal ، وانتقل إلى الدليل حيث يوجد ملف PDF الذي تريد تحويله ، وأدخل ما يلي (استبدل input.pdf بملف PDF الذي تريد تحويله والإخراج. pdf باسم الملف الجديد بطبقة النص المضمنة)
pdfocr -i input.pdf -oput.pdf
انتظر حتى يتم تنفيذ OCR على كل صفحة من صفحات ملف PDF الخاص بك وحتى يتم إنشاء الملف المعدل النهائي. يجب أن يستغرق هذا بضع ثوانٍ لكل صفحة ، اعتمادًا على دقة ملف PDF الخاص بك.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
قراءة قائمة الحزم ... انتهى
إنشاء شجرة التبعية
قراءة معلومات الحالة ... انتهى
E: تعذر تحديد موقع حزمة pdfocr
Rodolfo @ rodolfo-desktop: ~ $
هل تأكدت من إضافة PPA المقابل؟
من المحتمل أن تحتوي PPA على إصدارات من pdfocr لإصدارات Ubuntu الأقدم. أعتقد أن هذا المنشور قد مضى عليه بالفعل عدة أشهر. على أي حال ، الفكرة هي نفسها. انتقل إلى Launchpad وابحث عن PPA يحتوي على إصدارات pdfocr لـ Maverick.
في صحتك! بول.
حسنًا ، ستكون مسألة اختبارها لمعرفة كيفية عملها
إنطلق! أخبرنا إذا كنت ناجحًا !! إذا لم ينجح الأمر ، فيمكننا أيضًا محاولة مساعدتك! في صحتك! بول.
مرحبا،
لقد اختبرت البرنامج على ملف pdf والنتيجة ليست جيدة جدًا. لقد اعتدت على البهلوان المحترف 8 وكنت أبحث عن شيء مشابه. يمرر Acrobat الأدوات المساعدة إلى الملفات لتنظيف وتقويم ملفات PDF الممسوحة ضوئيًا وبالتالي الحصول على مصدر أفضل لـ OCR. هل تعرف ما إذا كان هناك حل لهذا.
تحيات
مرحبا! لقد سمعت أن Tesseract هو أفضل OCR مفتوح المصدر. لا أعرف ما إذا كان سيكون جيدًا. أيضًا ، عليك أن تتسخ يديك قليلاً حتى تعمل. فيما يلي بعض التعليمات. إذا كنت ناجحًا ، فيرجى إبلاغي بذلك لأنه إذا نجحت ، فمن المحتمل أن ينتهي بك الأمر لتصبح مشاركة.
قم أولاً بتثبيت الحزم "tesseract 2.03-4" و "imagemagick" باستخدام Synaptic ، "xsane2tess" من "http://download.tuxfamily.org/guadausers/guadaV4/".
ثم أنشئ مجلد tmp في: / home / yourusername / tmp
ثم افتح Xsane لتكوينه ، Preferences–> Configuration–> علامة التبويب OCR واملأ ما يلي:
أمر OCR -> xsane2tess -l spa
خيار ملف الإدخال -> -i
خيار ملف الإخراج -> -o
خيار الإخراج - واجهة fd -> -x
في تكوينات Xsane في علامة التبويب "حفظ" في الجزء حيث يشير إلى الدليل المؤقت ، تأكد من وجود مجلد "tmp" الذي أنشأته في "/ home / yourusername"
أترك لك أيضًا صفحة تحتوي على تفاصيل حول كيفية التعرف الضوئي على الحروف في أوبونتو: https://help.ubuntu.com/community/OCR
طريقة أخرى اكتشفتها x وهي ما يلي:
بافتراض أن الماسح تم توصيله بالفعل والتعرف عليه من قبل النظام
1. أفتح System> Administration> Synaptic Package Manager (في جنوم)
2. ابحث عن إطار عمل لتثبيت tesseract-ocr-spa (للمسح باللغة الإسبانية) و gscan2pdf
3. للمسح الضوئي ، افتح التطبيقات> الرسومات> gscan2pdf
و مستعد.
مرحبًا يا صديقي ، شكرًا جزيلاً لك ، الحقيقة هي أن tesseract أداة جيدة ، ولكنها محدودة جدًا مقارنة بالكتب ذات المسح الضوئي "الإشكالي". من ناحية أخرى ، يتكيف هذا البرنامج بسهولة أكبر ... 😀
في عملية رقمنة الصور ، يتم تحويل ملفات PDF-A ، يجب أن تكون OCRed. ما مدى حساسية المسح الضوئي للنتيجة بالأبيض والأسود أو بتدرج الرمادي؟ ما هو الموصى به؟