כיצד לבצע OCR PDF ולאפשר בחירת טקסט וחיפוש

כיצד OCR PDF ומאפשר בחירת טקסט וחיפוש

נניח שיש לך מסמך PDF שנוצר באמצעות סורק, או שהוא העביר לך אותו אך הוא מכיל את המידע בצורה של תמונה. נקרא ההליך אליו אנו חייבים להגיש את קובץ ה- PDF האהוב שלנו OCR: תהליך שמזהה אוטומטית סמלים או תווים השייכים לאלף-בית מסוים, מתמונה כדי לאחסן אותה בצורה של נתונים איתם נוכל לקיים אינטראקציה באמצעות תוכנית עריכת טקסט או דומה.

pdfocr הוא כלי פשוט היוצר קובץ PDF חדש עם שכבת טקסט מוטמעת, המאפשר למשתמש לבחור טקסט ולחפש בו מילים, מבלי לשנות את המראה הסופי של ה- PDF.

בשביל מה pdfocr לא מיועד:

זה שימושי רק אם ה- PDF מכיל את המידע בצורה של תמונה; אם ייצאת את ה- PDF מ- OpenOffice, כבר יש לו שכבת טקסט מוטמעת, כך שהליך זה מיותר.

כיצד להתקין pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
עדכון sudo apt-get
sudo apt-get להתקין pdfocr

כיצד להשתמש ב- pdfocr:

פתח מסוף, עבור לספרייה בה נמצא ה- PDF שברצונך להמיר והזן את הדברים הבאים (החלף את input.pdf עם ה- PDF שברצונך להמיר ו output.pdf בשם הקובץ החדש עם שכבת הטקסט המשובצת )

pdfocr -i input.pdf -o output.pdf

המתן שכל עמוד ב- PDF שלך יתורגל ב- OCR וייווצר הקובץ האחרון ששונה. זה אמור לקחת מספר שניות לעמוד, תלוי ברזולוציית ה- PDF שלך.

השאירו את התגובה שלכם בטל תשובה

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

תגובה *

שם*

דואר אלקטרוני*

אני מקבל את תנאי פרטיות*

אחראי לנתונים: מיגל אנחל גטון
מטרת הנתונים: בקרת ספאם, ניהול תגובות.
לגיטימציה: הסכמתך
מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.

אני רוצה לקבל את העלון

רודולפו לארה דיג'ו
hace 11 שנים

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get להתקין pdfocr
רשימת חבילות קריאה ... בוצע
יצירת עץ תלות
קורא את פרטי הסטטוס ... בוצע
ה: לא ניתן היה לאתר את חבילת pdfocr
rodolfo @ rodolfo-desktop: ~ $

תשובה לרודולפו לארה
בואו נשתמש בלינוקס דיג'ו
hace 11 שנים

האם הקפדת להוסיף את ה- PPA המתאים?
ל- PPA זה יש כנראה גרסאות של pdfocr עבור גרסאות אובונטו ישנות יותר. תחשוב שהפוסט הזה כבר בן מספר חודשים. בכל מקרה, הרעיון זהה. עבור אל Launchpad וחפש PPA המכיל גרסאות של pdfocr עבור Maverick.
לחיים! פול.

להגיב בואו נשתמש בלינוקס
ג'וואר דיג'ו
hace 11 שנים

ובכן, זה יהיה עניין של בדיקה כדי לראות איך זה עובד

תשובה ל- Jvare
בואו נשתמש בלינוקס דיג'ו
hace 11 שנים

לך על זה! ספר לנו אם הצלחת !! אם זה לא עובד אנחנו יכולים גם לנסות לעזור לך! לחיים! פול.

להגיב בואו נשתמש בלינוקס
a01653 דיג'ו
hace 11 שנים

שלום,
בדקתי את התוכנית בקובץ PDF והתוצאה לא טובה במיוחד. אני רגיל לאקרובט המקצועי 8 וחיפשתי משהו דומה. Acrobat מעבירה כלי עזר לקבצים כדי לנקות וליישר את ה- pdfs הסרוקים וכך להשיג מקור טוב יותר עבור ה- ocr. אתה יודע אם יש לכך פיתרון.

ברכות

תשובה ל- a01653
בואו נשתמש בלינוקס דיג'ו
hace 11 שנים

שלום! שמעתי ש- Tesseract הוא OCR המקורי הפתוח הטוב ביותר. אני לא יודע אם זה יהיה טוב. כמו כן, אתה צריך ללכלך את הידיים קצת כדי שזה יעבוד. להלן מספר הוראות. אם אתה מצליח, אני מבקש שתודיע לי מכיוון שאם זה עובד, זה כנראה יהפוך לפוסט.

ראשית התקן את החבילות "tesseract 2.03-4" ו- "imagemagick" באמצעות Synaptic, "xsane2tess" מ- "http://download.tuxfamily.org/guadausers/guadaV4/".

לאחר מכן צור את תיקיית tmp ב: / home / yourusername / tmp

ואז פתח את Xsane כדי להגדיר אותה, העדפות -> תצורה -> כרטיסיית OCR ומלא את הדברים הבאים:

פקודת OCR -> ספא xsane2tess -l
אפשרות קובץ קלט -> -i
אפשרות קובץ פלט -> -ו
אפשרות פלט-ממשק fd -> -x

בתצורות Xsane בכרטיסייה "שמור" בחלק שבו כתוב ספרייה זמנית, וודא שיש את תיקיית "tmp" שיצרת ב "/ home / yourusername"

אני גם משאיר לך דף עם פרטים על אופן ביצוע OCR באובונטו: https://help.ubuntu.com/community/OCR

להגיב בואו נשתמש בלינוקס
בואו נשתמש בלינוקס דיג'ו
hace 11 שנים

שיטה נוספת שגיליתי שם x היא הבאה:

בהנחה שהסורק כבר חובר והוכר על ידי המערכת

1. אני פותח מערכת> ניהול> מנהל החבילות הסינפטיות (ב- GNOME)

2. חפש ומסגרת להתקנת tesseract-ocr-spa (לסריקה בספרדית) ו- gscan2pdf

3. לסריקה אני פותח יישומים> גרפיקה> gscan2pdf

ומוכן.

להגיב בואו נשתמש בלינוקס
טרובדור דיג'ו
hace 10 שנים

היי חבר, תודה רבה, האמת ש- tesseract הוא כלי טוב, אך מוגבל מאוד בהשוואה לספרים עם סריקה "בעייתית". מצד שני, תוכנה זו מסתגלת ביתר קלות ... 😀

השב ל- Trovadordebarro
ג'ואן אנז דיג'ו
hace 10 שנים

בתהליך דיגיטציה של תמונות, המרת קבצי PDF-A חייבת להיות OCRed. עד כמה הרגישות לתוצאה סריקה בשחור לבן או בגווני אפור? מה מומלץ?

תשובה ל- juan anez