נניח שיש לך מסמך PDF שנוצר באמצעות סורק, או שהוא העביר לך אותו אך הוא מכיל את המידע בצורה של תמונה. נקרא ההליך אליו אנו חייבים להגיש את קובץ ה- PDF האהוב שלנו OCR: תהליך שמזהה אוטומטית סמלים או תווים השייכים לאלף-בית מסוים, מתמונה כדי לאחסן אותה בצורה של נתונים איתם נוכל לקיים אינטראקציה באמצעות תוכנית עריכת טקסט או דומה. |
pdfocr הוא כלי פשוט היוצר קובץ PDF חדש עם שכבת טקסט מוטמעת, המאפשר למשתמש לבחור טקסט ולחפש בו מילים, מבלי לשנות את המראה הסופי של ה- PDF.
בשביל מה pdfocr לא מיועד:
זה שימושי רק אם ה- PDF מכיל את המידע בצורה של תמונה; אם ייצאת את ה- PDF מ- OpenOffice, כבר יש לו שכבת טקסט מוטמעת, כך שהליך זה מיותר.
כיצד להתקין pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
עדכון sudo apt-get
sudo apt-get להתקין pdfocr
כיצד להשתמש ב- pdfocr:
פתח מסוף, עבור לספרייה בה נמצא ה- PDF שברצונך להמיר והזן את הדברים הבאים (החלף את input.pdf עם ה- PDF שברצונך להמיר ו output.pdf בשם הקובץ החדש עם שכבת הטקסט המשובצת )
pdfocr -i input.pdf -o output.pdf
המתן שכל עמוד ב- PDF שלך יתורגל ב- OCR וייווצר הקובץ האחרון ששונה. זה אמור לקחת מספר שניות לעמוד, תלוי ברזולוציית ה- PDF שלך.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get להתקין pdfocr
רשימת חבילות קריאה ... בוצע
יצירת עץ תלות
קורא את פרטי הסטטוס ... בוצע
ה: לא ניתן היה לאתר את חבילת pdfocr
rodolfo @ rodolfo-desktop: ~ $
האם הקפדת להוסיף את ה- PPA המתאים?
ל- PPA זה יש כנראה גרסאות של pdfocr עבור גרסאות אובונטו ישנות יותר. תחשוב שהפוסט הזה כבר בן מספר חודשים. בכל מקרה, הרעיון זהה. עבור אל Launchpad וחפש PPA המכיל גרסאות של pdfocr עבור Maverick.
לחיים! פול.
ובכן, זה יהיה עניין של בדיקה כדי לראות איך זה עובד
לך על זה! ספר לנו אם הצלחת !! אם זה לא עובד אנחנו יכולים גם לנסות לעזור לך! לחיים! פול.
שלום,
בדקתי את התוכנית בקובץ PDF והתוצאה לא טובה במיוחד. אני רגיל לאקרובט המקצועי 8 וחיפשתי משהו דומה. Acrobat מעבירה כלי עזר לקבצים כדי לנקות וליישר את ה- pdfs הסרוקים וכך להשיג מקור טוב יותר עבור ה- ocr. אתה יודע אם יש לכך פיתרון.
ברכות
שלום! שמעתי ש- Tesseract הוא OCR המקורי הפתוח הטוב ביותר. אני לא יודע אם זה יהיה טוב. כמו כן, אתה צריך ללכלך את הידיים קצת כדי שזה יעבוד. להלן מספר הוראות. אם אתה מצליח, אני מבקש שתודיע לי מכיוון שאם זה עובד, זה כנראה יהפוך לפוסט.
ראשית התקן את החבילות "tesseract 2.03-4" ו- "imagemagick" באמצעות Synaptic, "xsane2tess" מ- "http://download.tuxfamily.org/guadausers/guadaV4/".
לאחר מכן צור את תיקיית tmp ב: / home / yourusername / tmp
ואז פתח את Xsane כדי להגדיר אותה, העדפות -> תצורה -> כרטיסיית OCR ומלא את הדברים הבאים:
פקודת OCR -> ספא xsane2tess -l
אפשרות קובץ קלט -> -i
אפשרות קובץ פלט -> -ו
אפשרות פלט-ממשק fd -> -x
בתצורות Xsane בכרטיסייה "שמור" בחלק שבו כתוב ספרייה זמנית, וודא שיש את תיקיית "tmp" שיצרת ב "/ home / yourusername"
אני גם משאיר לך דף עם פרטים על אופן ביצוע OCR באובונטו: https://help.ubuntu.com/community/OCR
שיטה נוספת שגיליתי שם x היא הבאה:
בהנחה שהסורק כבר חובר והוכר על ידי המערכת
1. אני פותח מערכת> ניהול> מנהל החבילות הסינפטיות (ב- GNOME)
2. חפש ומסגרת להתקנת tesseract-ocr-spa (לסריקה בספרדית) ו- gscan2pdf
3. לסריקה אני פותח יישומים> גרפיקה> gscan2pdf
ומוכן.
היי חבר, תודה רבה, האמת ש- tesseract הוא כלי טוב, אך מוגבל מאוד בהשוואה לספרים עם סריקה "בעייתית". מצד שני, תוכנה זו מסתגלת ביתר קלות ... 😀
בתהליך דיגיטציה של תמונות, המרת קבצי PDF-A חייבת להיות OCRed. עד כמה הרגישות לתוצאה סריקה בשחור לבן או בגווני אפור? מה מומלץ?