כיצד OCR PDF ומאפשר בחירת טקסט וחיפוש

נניח שיש לך מסמך PDF שנוצר באמצעות סורק, או שהוא העביר לך אותו אך הוא מכיל את המידע בצורה של תמונה. נקרא ההליך אליו אנו חייבים להגיש את קובץ ה- PDF האהוב שלנו OCR: תהליך שמזהה אוטומטית סמלים או תווים השייכים לאלף-בית מסוים, מתמונה כדי לאחסן אותה בצורה של נתונים איתם נוכל לקיים אינטראקציה באמצעות תוכנית עריכת טקסט או דומה.


pdfocr הוא כלי פשוט היוצר קובץ PDF חדש עם שכבת טקסט מוטמעת, המאפשר למשתמש לבחור טקסט ולחפש בו מילים, מבלי לשנות את המראה הסופי של ה- PDF.

בשביל מה pdfocr לא מיועד:

זה שימושי רק אם ה- PDF מכיל את המידע בצורה של תמונה; אם ייצאת את ה- PDF מ- OpenOffice, כבר יש לו שכבת טקסט מוטמעת, כך שהליך זה מיותר.

כיצד להתקין pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
עדכון sudo apt-get
sudo apt-get להתקין pdfocr

כיצד להשתמש ב- pdfocr:

פתח מסוף, עבור לספרייה בה נמצא ה- PDF שברצונך להמיר והזן את הדברים הבאים (החלף את input.pdf עם ה- PDF שברצונך להמיר ו output.pdf בשם הקובץ החדש עם שכבת הטקסט המשובצת )

pdfocr -i input.pdf -o output.pdf

המתן שכל עמוד ב- PDF שלך יתורגל ב- OCR וייווצר הקובץ האחרון ששונה. זה אמור לקחת מספר שניות לעמוד, תלוי ברזולוציית ה- PDF שלך.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.

  1.   רודולפו לארה דיג'ו

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get להתקין pdfocr
    רשימת חבילות קריאה ... בוצע
    יצירת עץ תלות
    קורא את פרטי הסטטוס ... בוצע
    ה: לא ניתן היה לאתר את חבילת pdfocr
    rodolfo @ rodolfo-desktop: ~ $

  2.   בואו נשתמש בלינוקס דיג'ו

    האם הקפדת להוסיף את ה- PPA המתאים?
    ל- PPA זה יש כנראה גרסאות של pdfocr עבור גרסאות אובונטו ישנות יותר. תחשוב שהפוסט הזה כבר בן מספר חודשים. בכל מקרה, הרעיון זהה. עבור אל Launchpad וחפש PPA המכיל גרסאות של pdfocr עבור Maverick.
    לחיים! פול.

  3.   ג'וואר דיג'ו

    ובכן, זה יהיה עניין של בדיקה כדי לראות איך זה עובד

  4.   בואו נשתמש בלינוקס דיג'ו

    לך על זה! ספר לנו אם הצלחת !! אם זה לא עובד אנחנו יכולים גם לנסות לעזור לך! לחיים! פול.

  5.   a01653 דיג'ו

    שלום,
    בדקתי את התוכנית בקובץ PDF והתוצאה לא טובה במיוחד. אני רגיל לאקרובט המקצועי 8 וחיפשתי משהו דומה. Acrobat מעבירה כלי עזר לקבצים כדי לנקות וליישר את ה- pdfs הסרוקים וכך להשיג מקור טוב יותר עבור ה- ocr. אתה יודע אם יש לכך פיתרון.

    ברכות

  6.   בואו נשתמש בלינוקס דיג'ו

    שלום! שמעתי ש- Tesseract הוא OCR המקורי הפתוח הטוב ביותר. אני לא יודע אם זה יהיה טוב. כמו כן, אתה צריך ללכלך את הידיים קצת כדי שזה יעבוד. להלן מספר הוראות. אם אתה מצליח, אני מבקש שתודיע לי מכיוון שאם זה עובד, זה כנראה יהפוך לפוסט.

    ראשית התקן את החבילות "tesseract 2.03-4" ו- "imagemagick" באמצעות Synaptic, "xsane2tess" מ- "http://download.tuxfamily.org/guadausers/guadaV4/".

    לאחר מכן צור את תיקיית tmp ב: / home / yourusername / tmp

    ואז פתח את Xsane כדי להגדיר אותה, העדפות -> תצורה -> כרטיסיית OCR ומלא את הדברים הבאים:

    פקודת OCR -> ספא xsane2tess -l
    אפשרות קובץ קלט -> -i
    אפשרות קובץ פלט -> -ו
    אפשרות פלט-ממשק fd -> -x

    בתצורות Xsane בכרטיסייה "שמור" בחלק שבו כתוב ספרייה זמנית, וודא שיש את תיקיית "tmp" שיצרת ב "/ home / yourusername"

    אני גם משאיר לך דף עם פרטים על אופן ביצוע OCR באובונטו: https://help.ubuntu.com/community/OCR

  7.   בואו נשתמש בלינוקס דיג'ו

    שיטה נוספת שגיליתי שם x היא הבאה:

    בהנחה שהסורק כבר חובר והוכר על ידי המערכת

    1. אני פותח מערכת> ניהול> מנהל החבילות הסינפטיות (ב- GNOME)

    2. חפש ומסגרת להתקנת tesseract-ocr-spa (לסריקה בספרדית) ו- gscan2pdf

    3. לסריקה אני פותח יישומים> גרפיקה> gscan2pdf

    ומוכן.

  8.   טרובדור דיג'ו

    היי חבר, תודה רבה, האמת ש- tesseract הוא כלי טוב, אך מוגבל מאוד בהשוואה לספרים עם סריקה "בעייתית". מצד שני, תוכנה זו מסתגלת ביתר קלות ... 😀

  9.   ג'ואן אנז דיג'ו

    בתהליך דיגיטציה של תמונות, המרת קבצי PDF-A חייבת להיות OCRed. עד כמה הרגישות לתוצאה סריקה בשחור לבן או בגווני אפור? מה מומלץ?