ניתוח טקסטים איכותי ויצירת אינדקסי נושאים עם AntConc ו- LibreOffice

Saludos amigas y amigos, me da mucho gusto unirme y participar en lo que este a mi alcance de ahora en adelante en <° Desde Linux. Me llamo jathan y les comparto esta primera entrada a partir de una documentación que hice en el servicio social de la coordinación de informática de mi facultad. Espero que la encuentren interesante, les sea útil, así como hagan todo tipo de comentarios.

כאשר בקובץ טקסט אנו רוצים למצוא מילות מפתח ליצירת אינדקס נושאי, לנתח את הרעיונות העיקריים של יצירה או מטרה דומה אחרת, עלינו לבצע חיפושים באמצעותם נוכל להבחין בין אותיות גדולות וקטנות בתוך מילים, כמו גם רשימה של אלה המדגישה את התווים הרצויים כגון אות, כך שנוכל למצוא מילות מפתח בצורה מהירה ופרקטית יותר.

מטרת תיעוד זה היא להציג ולהסביר את השימוש ביישום ניתוח טקסטואלי איכותי ובעורך טקסט כדי להקל על מימוש אינדקס נושא באמצעות תוכנה חופשית.

בחלק הראשון, נוהל ההתקנה של LibreOffice והביצוע של AntConc בתוך מערכת ההפעלה גנו / לינוקס ומאוחר יותר כיצד לעשות זאת במערכות Windows ו- Mac OS, בעוד שבחלקים הבאים ללא קשר למערכת ההפעלה, יוסבר כיצד להשתמש AntConc y LibreOffice שימוש בדוגמאות ליצירת אינדקס נושאים.

LibreOffice ו- AntConc ב- GNU / Linux

הדבר הראשון שעלינו לעשות הוא לוודא שהתקינו את LibreOffice על הפצת GNU / Linux שלנו. LibreOffice היא חבילת משרד רב-חינמית בחינם המורשית עם GPL ועוזרת לנו לערוך מסמכי טקסט, שקופיות, גיליונות אלקטרוניים, בסיסי נתונים, ציורים ונוסחאות מתמטיות בצורה פשוטה ויעילה.

אם אנו משתמשים דביאן, LinuxMint, Trisquel, Ubuntu או כל הפצה אחרת המבוססת על דביאן, אנחנו כבר לא נצטרך להתמודד עם ההתקנה שלה מכיוון שברוב ההפצות הללו בגרסאות האחרונות שלהם כמו גם אחרות כמו Mageia, Fedora ו- OpenSUSE, LibreOffice כבר מותקן מראש ואתה רק צריך למצוא אותו ולהפעיל אותו מחלונית היישומים או לפי שורת פקודה.

אם אנו משתמשים ב- Debian Squeeze 6.0 עלינו לעדכן את OpenOffice ל- LibreOffice בהתאם להוראות הבאות: http://www.dobleseis.com.ar/instalar-libreoffice-3-en-debian-squeeze.

לאחר שווידאנו להתקין את LibreOffice במערכת שלנו, נמשיך לביקור באתר AntLab שם נוכל למצוא כמה יישומים שימושיים שפותחו על ידי לורנס אנתוני לצורך ניתוח טקסט איכותי והתאמת מילים עם קבצי הפעלה חוצי פלטפורמות עבור GNU / Linux, Mac מערכת הפעלה וחלונות.

AntConc הוא יישום שנכתב בשפת התכנות Perl המאפשר לנו לרשום מילים בסדר אלפביתי או לפי תדירות ההופעה, מילות מפתח, ליצור קונקורדנציות וקבוצות מילים מקובץ בפורמט טקסט רגיל, תוך הבחנה בין אותיות קטנות ורישיות. להורדתו, היכנסו לקישור זה: http://www.antlab.sci.waseda.ac.jp/antconc_index.html ובחרו בעמודה החמישית שבה מופיע הפינגווין של הטוקס את האפשרות להוריד את AntConc 3.2.4u:

לאחר סיום ההורדה של הקובץ שנבחר, אנו פותחים את דפדפן הקבצים המועדף עלינו (Pcmanfm, Nautilus, Thunar, Dolphin או כל אחר) על ידי פתיחתו דרך חלונית הסביבה הגרפית בה אנו משתמשים או על ידי לחיצה על alt + f2, כתיבת שמו ב באותיות קטנות ולחץ על Enter בסוף ולאחר מכן צור שתי ספריות (תיקיות) בספריית המשתמשים שלנו, ותתנה שם Applications_extras ושאר AntConc כתיקיית משנה של הראשונה:

כעת אנו עוברים לספריה בה הורד הקובץ antconc3.2.4u.tar.gz (בדוגמה זו הורדות) ואנחנו פותחים את הקובץ עם Xarchiver או Fileroller כדי לפתוח את תוכנו לספריית Antconc על ידי בחירת אפשרות החילוץ במנהל הקבצים שלנו ו המציין את נתיב הספריה / בית / משתמש / Extra_Applications / AntConc:

לאחר שחולץ התוכן של החבילה antconc3.2.4u.tar.gz לספריית AntConc בתוך Applications_extras, אנו מזהים את קובץ antconc3.2.4u כדי להעניק לו הרשאות ביצוע על ידי לחיצה על כפתור העכבר הימני, הזנת מאפיינים ומאפשרים ביצוע של קובץ כתוכנית:

ועם זה אנו אמורים להיות מסוגלים לפתוח את AntConc על ידי לחיצה כפולה עם העכבר על קובץ antconc3.2.4u.

אם אנו מעדיפים, נוכל לבצע את כל ההליך הקודם דרך הטרמינל על ידי ביצוע הפקודות הבאות ושינוי "משתמש" בשם בו אנו משתמשים בסשן שלנו:

כדי ליצור ספריות:

$ mkdir / home / user / Applications_extras (הקש Enter)
$ mkdir / home / user / Applications_extras / AntConc (הקש Enter)

עבור לספריית AntConc וחלץ את התוכן של antconc3.2.4u.tar.gz:

$ cd / home / user / Applications_extras / AntConc / (הקש Enter)
$ tar -xzvf /home/usuario/Descargas/antconc3.2.4u.tar.gz (לחץ על Enter)

אפשר להפעיל את הקובץ antconc3.2.4u כתוכנית:

$ chmod + x antconc3.2.4u (הקש Enter)

והפעל את AntConc:

$ /home/usuario/Aplicaciones_extras/AntConc/antconc3.2.4u( לחץ על Enter)

ללא קשר לנוהל שנבחר, אם נרצה, נוכל להעתיק את קובץ antconc3.2.4u לספריית / usr / bin ולתת לו את ההרשאות הדרושות כדי להיות מסוגל להריץ את AntConc מהטרמינל או עם alt + f2 פשוט על ידי כתיבת antconc3.2.4u. לשם כך אנו מבצעים את הפקודות הבאות כמשתמש-על עם סו או סודו:

$ su
(אנו כותבים את סיסמת השורש שלנו ולחץ על Enter)
# cp /home/user/Extras_Applications/AntConc/antconc3.2.4u / usr / bin
# chmod a + rwx /usr/bin/antconc3.2.4u
# יציאה

ועכשיו, רק על ידי הפעלת antconc3.2.4u עם המשתמש שלנו מכל אמולטור מסוף, AntConc תיפתח כפי שמוצג בתמונה הקודמת.

$antconc3.2.4u

באמצעות AntConc כדי לרשום מילים לפי תו ספציפי

לאחר שכבר זיהינו כיצד להוריד ולהפעיל את AntConc, נפנה כעת דרך להדגים את השימוש בו לאיתור מילים באמצעות חיפוש בסדר אלפביתי של תווים באותיות קטנות וקטנות. אם ברצונך להעמיק יותר בתפעול AntConc ובכל אפשרויות השימוש בו, תוכל להתייעץ עם המסמך README_AntConc3.2.4.pdf בספרייה שלנו / home / user / Aplicaciones_extras / AntConc או להוריד אותו מ- http: //www.antlab .sci.waseda.ac.jp / software / antconc335 / AntConc_readme.pdf, כמו גם התייעץ עם העזרה המקוונת או צפה במדריכי הווידאו של AntConc הזמינים באתר האינטרנט שלה http://www.antlab.sci.waseda.ac. jp / antconc_index.html

AntConc יכולה לעבוד רק עם קבצי טקסט רגילים (".txt"), ".html", ".hml," ".xml" ובפורמט משלו ".ant", כך שתוכן המסמך שממנו נכין את לזיהוי מילים, נשנה אותו מהפורמט המקורי שלו ב ".odt", ".rtf", ".pdf" או אחר ל ".txt" בבחירת כל התוכן, העתקתו והדבקתו למסמך טקסט חדש. מטוס שמפעיל את עורך הטקסטים המועדף עלינו (Leafpad, Gedit, Vim, Emacs, בין היתר). בדוגמה זו נבקש ליצור אינדקס נושא מהספר "בנייה משותפת של ידע" ממנו נוכל לבקר באתר האינטרנט שלו: http://seminario.edusol.info/seco3/ ואשר נוכל להוריד בחינם מקישור זה: http: / /seminario.edusol.info/seco3/pdf/seco3.pdf

לאחר הורדת הקובץ, אנו מאתרים אותו בספריית ההורדות שלנו, אנו פותחים אותו עם מציג מסמכי ה- pdf שלנו (בדוגמה זו Evince), אנו בוחרים את כל תוכנו על ידי לחיצה על ctrl + a, אנו מעתיקים אותו ומדביקים אותו למישור חדש מסמך טקסט:

ואנחנו שומרים את המסמך החדש שלנו בטקסט רגיל עם השם «Construccion_colaborativa_del_conocimiento.txt» בספריית המסמכים:

כעת אנו מריצים את AntConc ומהכרטיסייה הראשונה בפינה השמאלית העליונה הנקראת "קובץ" אנו פותחים את הקובץ "Construccion_colaborativa_del_knowledge.txt":

בעמודה השמאלית הנקראת "קבצי קורפוס" יופיע כעת שם קובץ הטקסט שלנו, המציין שאנחנו נעבוד על קובץ זה, מכיוון שב- AntConc נוכל לטעון יותר מקובץ טקסט אחד ולעבוד עליהם יחד או בנפרד:

כעת מה שנעשה הוא לרשום את כל המילים המכילות את התו "A", כדי לזהות מילת מפתח עם אות גדולה זו, מכיוון ש- AntConc מציעה לנו אפשרות להבחין באותיות קטנות וגדולות, וזה מאוד שימושי לזיהוי שמות פרטיים. או ראשי תיבות בצורת רשימה. לשם כך אנו מציבים את הלשונית הראשונה בשם "קונקורדנציה" בצד ימין של "קבצי קורפוס", מסירים את הסימון בתיבה "מילים" כדי לסמן את התיבה "מקרה", שניהם בצד הימני התחתון של "מונח חיפוש", אנו כותבים בשדה חפש מתחת לאות A ולחץ על המלבן הסגול שאומר "התחל":

והיא תפרט את התוצאות של הדברים הבאים. צוּרָה:

כפי שאנו רואים, כמה תווים שנכתבו עם מבטאים נראים דומים למילה "אוטונומה" במקום "אוטונומה". הסיבה לכך היא שעלינו לספר ל- AntConc את שפת הקידוד המתאימה לשפה שלנו, מכיוון ש- AntConc לא מזהה שאנחנו משתמשים בספרדית כברירת מחדל. לשם כך אנו פותחים את הכרטיסייה «הגדרות גלובאל» בחלק העליון שליד «קובץ», אנו עוברים לאופציה האחרונה «הגדרות קידוד שפה» בצד ימין אנו לוחצים על «ערוך» אנו בוחרים באפשרות הראשונה «קידודים סטנדרטיים »אנו לוחצים עליו, בוחרים באפשרות השלישית מהרשימה שמופיעה בצד ימין" Unicode (utf8) "ונלחצים על התיבה" החל "בחלק הימני התחתון של החלון:

לאחר החלת השינויים, לחץ שוב על המלבן הסגול של «התחל» והתווים המודגשים יופיעו כעת באופן קריא:

כעת אנו בוחנים את המילים באות A המודגשות בכחול לצורך זיהוי קל ובהתאם לשיקולינו, אנו בוחרים את אלה שאנו רוצים לכלול במדד התמטי, למשל "אנאלפביתי מחשבים" בשורה מספר 17 הוא הנפוץ ביותר מילה שנמצאה מיידית היא הראשונה שהתייחסו אליה באינדקס התמטי שלנו מתוכן הטקסט של "בניית ידע משותף".

אנו חוזרים למסמך pdf "בנייה משותפת של ידע" כדי למצוא באילו דפים מופיעים "אנאלפביתים ממוחשבים" על ידי הקלדת "ctrl + f", כתיבת המילה "אנאלפיריות" בשדה החיפוש ולחיצה על "enter" בסוף וה מספר הפעמים הדרוש לאיתור המילה שחיפשת בכל הדפים. אנו פותחים מסמך חדש ב- LibreOffice Writer כדי ליצור את אינדקס הנושאים שלנו, או אם אנו עובדים על תוכן המסמך שנמצא במקור ב- .odt, אנו פותחים את המסמך עם LibreOffice ואנחנו ניצור ונערוך רק את אינדקס הנושאים שלו בכל דף. :

אם אנו רוצים להזדהות עם AntConc באילו משפטים "אנאלפביתיות מחשב" מופיע בכל תוכן המסמך "Construccion_colaborativa_del_conocimiento.txt", אנו כותבים "אנאלפביתיות מחשבים" בשדה החיפוש, מבטלים את הסימון "מקרה", מסמנים "מילים" ו לחץ עליו ל"התחל ":

אם נלחץ על אחת מהשורות המודגשות ל"אנאלפביתיות מחשב "עם צבע כחול, למשל בשורה 4, בכרטיסייה" תצוגת קבצים "זה יראה לנו את שבר הטקסט שבו הבחירה הזו מופיעה מודגשת בצבע שחור של הרקע. :

באופן זה, AntConc מאוד שימושית עבורנו כאשר כתבנו ספר, חיבור או סיכום ולא עשינו אינדקס נושאים במקביל או לנתח באופן שיטתי את הרעיונות העיקריים של עבודה כדי להקל על קריאתה.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.

  1.   RAW-Basic דיג'ו

    כלי מעניין מאוד .. .. לא ידעתי על זה .. וזה מאוד שימושי עבורי ..

    תודה..

  2.   כריסטיאנהד דיג'ו

    מאמר טוב מאוד, מעניין

  3.   איש זקן דיג'ו

    תודה רבה על השיתוף

  4.   כיצד להתקין את לינוקס דיג'ו

    תרומה נהדרת, שימושית מאוד. הידיעה שאתה יכול לקבל כלים מסוג זה בלינוקס תמיד משנה. בברכה.

  5.   פיטושידו דיג'ו

    כניסה מעולה. אני אוהב שהם מפרסמים תוכן מסוג זה!

  6.   ג'תן דיג'ו

    שלום לכולם. תודה על הערותיך והתנצלות על היכולת להגיב עד כה. אני מקווה שלמי שיישם את החונכות לא היו בעיות.