Якісний аналіз тексту та створення предметних покажчиків за допомогою AntConc та LibreOffice

Вітаю, друзі, я дуже радий приєднатися та брати участь у всьому, що в межах моєї досяжності відтепер у <° Desde Linux. Мене звати Джатан, і я ділюся з вами цим першим записом, заснованим на документації, яку я зробив у соціальній службі ІТ-координації мого факультету. Сподіваюся, вам це буде цікаво, корисно та залишите всілякі коментарі.

Коли в текстовому файлі ми хочемо знайти ключові слова для створення тематичного покажчика, проаналізувати основні ідеї твору чи іншої подібної мети, нам потрібно здійснити пошук, за допомогою якого ми можемо розрізнити великі та малі символи в словах, а також перелік із виділення бажаних символів, таких як буква, щоб ми могли швидше та практичніше знаходити ключові слова.

Метою цієї документації є представити та пояснити використання програми якісного текстового аналізу та текстового редактора для полегшення реалізації тематичного покажчика за допомогою Вільного програмного забезпечення.

У першій частині, процедура встановлення LibreOffice та виконання AntConc в операційній системі GNU / Linux і пізніше, як це робити в системах Windows та Mac OS, тоді як у наступних частинах, незалежно від операційної системи, буде пояснено, як використовувати AntConc y LibreOffice На прикладах створювати предметний покажчик.

LibreOffice та AntConc на GNU / Linux

Перше, що нам потрібно зробити, це перевірити, чи встановлено LibreOffice на нашому дистрибутиві GNU / Linux. LibreOffice - це безкоштовний мультиплатформенний офісний пакет, ліцензований GPL, який допомагає нам редагувати текстові документи, слайди, таблиці, бази даних, креслення та математичні формули простим та ефективним способом.

Якщо ми використовуємо Debian, Linux Mint, Trisquel, Ubuntu або будь-який інший розподіл на основі Debian, Нам більше не доведеться мати справу з його установкою, оскільки у більшості цих дистрибутивів в їх останніх версіях, а також інших, таких як Mageia, Fedora та OpenSUSE, LibreOffice вже попередньо встановлений, і вам просто потрібно знайти його та запустити з панелі програм або за допомогою командного рядка.

Якщо ми використовуємо Debian Squeeze 6.0, ми повинні оновити OpenOffice до LibreOffice, дотримуючись цих інструкцій: http://www.dobleseis.com.ar/instalar-libreoffice-3-en-debian-squeeze.

Переконавшись, що в нашій системі встановлено LibreOffice, ми зараз перейдемо до веб-сайту AntLab, де ми зможемо знайти кілька корисних програм, розроблених Лоуренсом Ентоні для якісного аналізу тексту та відповідності слів із крос-платформними виконуваними файлами для GNU / Linux, Mac ОС та Windows.

AntConc - це програма, написана мовою програмування Perl, що дозволяє нам перераховувати слова в алфавітному порядку або за частотою появи, ключовими словами, створювати конкорданти та групи слів із файлу у форматі простого тексту, розрізняючи малі та великі символи. Щоб завантажити його, перейдіть за цим посиланням: http: //www.antlab.sci.waseda.ac.jp/antconc_index.html і виберіть у п’ятій колонці, де з’являється пінгвін Тукс, опцію завантаження AntConc 3.2.4u:

Коли завантаження вибраного файлу закінчиться, ми відкриваємо бажаний браузер файлів (Pcmanfm, Nautilus, Thunar, Dolphin або будь-який інший), відкриваючи його через графічну панель середовища, яку ми використовуємо, або натискаючи alt + f2, записуючи його назву в нижньому регістрі та натискаючи enter в кінці, а потім створіть два каталоги (папки) у нашому каталозі користувача, назвавши один Applications_extras та інший AntConc як підкаталог першого:

Тепер ми переходимо до каталогу, куди було завантажено файл antconc3.2.4u.tar.gz (в цьому прикладі Завантаження), і відкриваємо файл за допомогою Xarchiver або Fileroller, щоб розпакувати його вміст до каталогу Antconc, вибравши опцію вилучення в нашому менеджері файлів із зазначенням шляху до каталогу / home / user / Extra_Applications / AntConc:

Як тільки вміст пакета antconc3.2.4u.tar.gz буде витягнуто до каталогу AntConc у Applications_extras, ми ідентифікуємо файл antconc3.2.4u, щоб надати йому дозволи на виконання, клацнувши правою кнопкою миші, ввести властивості та дозволити виконання файл як програма:

І за допомогою цього ми повинні мати можливість відкрити AntConc подвійним клацанням миші на файлі antconc3.2.4u.

Якщо ми віддаємо перевагу, ми можемо виконати всю попередню процедуру через термінал, виконавши наступні команди і змінивши "користувача" на ім'я, яке ми використовуємо в нашому сеансі:

Щоб створити каталоги:

$ mkdir / home / user / Applications_extras (натисніть Enter)
$ mkdir / home / user / Applications_extras / AntConc (натисніть Enter)

Перейдіть до каталогу AntConc та витягніть вміст antconc3.2.4u.tar.gz:

$ cd / home / user / Applications_extras / AntConc / (натисніть Enter)
$ tar -xzvf /home/usuario/Descargas/antconc3.2.4u.tar.gz(press enter)

Дозвольте запустити файл antconc3.2.4u як програму:

$ chmod + x antconc3.2.4u (натисніть Enter)

І запустіть AntConc:

$ /home/usuario/Aplicaciones_extras/AntConc/antconc3.2.4u (натисніть Enter)

Незалежно від обраної нами процедури, за бажанням ми можемо скопіювати файл antconc3.2.4u в каталог / usr / bin і надати йому необхідні дозволи для запуску AntConc з терміналу або за допомогою alt + f2, просто написавши antconc3.2.4u. Для цього ми виконуємо такі команди як суперкористувач із su або sudo:

$ ваш
(ми пишемо свій root-пароль і натискаємо enter)
# cp /home/user/Extras_Applications/AntConc/antconc3.2.4u / usr / bin
# chmod a + rwx /usr/bin/antconc3.2.4u
# Вхід

І тепер, просто запустивши antconc3.2.4u з нашим користувачем з будь-якого емулятора терміналу, AntConc відкриється, як показано на попередньому зображенні.

$antconc3.2.4u

Використання AntConc для переліку слів за певним символом

Вже визначивши, як завантажувати та запускати AntConc, ми тепер дамо спосіб показати його використання для пошуку деяких слів за допомогою пошуку в алфавітному порядку символів як з малої, так і з великої літери. Якщо ви хочете глибше ознайомитися з роботою AntConc та усіма можливостями його використання, ви можете переглянути документ README_AntConc3.2.4.pdf у нашому каталозі / home / user / Aplicaciones_extras / AntConc або завантажити його з http: //www.antlab .sci.waseda.ac.jp / software / antconc335 / AntConc_readme.pdf, а також зверніться до онлайнової довідки або перегляньте відео-посібники AntConc, доступні на веб-сайті http://www.antlab.sci.waseda.ac. jp / antconc_index.html

AntConc може працювати лише з простими текстовими файлами (".txt"), ".html", ".hml," ".xml" та власним форматом ".ant", тому вміст документа, з якого ми будемо робити ідентифікації слова, ми змінимо його з початкового формату в ".odt", ".rtf", ".pdf" або якомусь іншому на ".txt", зробивши виділення всього вмісту, скопіювавши та вставивши в новий текстовий документ літак, на якому працює наш улюблений текстовий редактор (Leafpad, Gedit, Vim, Emacs та ін.). У цьому прикладі ми прагнемо створити тематичний покажчик з книги «Спільна побудова знань», з якої ми можемо відвідати веб-сайт: http://seminario.edusol.info/seco3/, і який ми можемо безкоштовно завантажити за цим посиланням: http: / /seminario.edusol.info/seco3/pdf/seco3.pdf

Після завантаження файлу ми знаходимо його в нашому каталозі завантажень, відкриваємо його за допомогою засобу перегляду документів PDF (у цьому прикладі Evince), виділяємо весь його вміст, натискаючи ctrl + a, копіюємо та вставляємо в новий документ із звичайним текстом :

І ми зберігаємо наш новий документ у вигляді простого тексту з назвою «Construccion_colaborativa_del_conocimiento.txt» у каталозі Документи:

Тепер ми запускаємо AntConc і з першої вкладки вгорі зліва під назвою "Файл" відкриваємо файл "Construccion_colaborativa_del_knowledge.txt":

У лівій колонці під назвою "Корпусні файли" тепер з'явиться ім'я нашого текстового файлу, що вказує на те, що ми будемо працювати над цим файлом, оскільки в AntConc ми можемо завантажувати більше одного текстового файлу і працювати над ними разом або окремо:

Тепер, що ми будемо робити, це перерахувати всі слова, що містять символ "А", щоб ідентифікувати ключове слово з цією великою літерою, оскільки AntConc пропонує нам можливість розрізнення малих та великих літер, що дуже корисно для ідентифікації власних імен або скорочення у формі списку. Для цього ми розміщуємо першу вкладку під назвою «Concordance» в правій частині «Корпусних файлів», знімаємо прапорець «Слова», щоб позначити поле «Справа», обидва в нижній правій частині «Пошукового терміна», ми пишемо в поле Шукайте під літерою А та клацніть на фіолетовому прямокутнику, на якому написано "Почати":

І в ньому будуть перелічені результати наступного. форма:

Як бачимо, деякі символи, написані з наголосом, схожі на слово "Autónoma" замість "Autónoma". Це тому, що ми повинні сказати AntConc відповідну мову кодування для нашої мови, оскільки AntConc не виявляє, що ми використовуємо іспанську мову за замовчуванням. Для цього ми відкриваємо вкладку «Налаштування Globlal» вгорі поруч з «Файл», переходимо до останнього варіанту «Налаштування кодування мови» праворуч, натискаємо «Редагувати», вибираємо перший варіант «Стандартні кодування »Ми натискаємо на нього, вибираємо третю опцію зі списку, що з’являється праворуч« Unicode (utf8) », і клацаємо на полі« Застосувати »в нижній правій частині вікна:

Після застосування змін, клацніть ще раз на фіолетовому прямокутнику «Пуск», і символи з наголосом тепер будуть розбірливо відображатись:

Зараз ми переглядаємо слова з буквою А, виділеною синім кольором для зручності ідентифікації, і виходячи з наших міркувань, ми вибираємо ті, які ми хочемо включити до тематичного покажчика, наприклад «Комп’ютерна неграмотність» у рядку № 17 є найпоширенішим словом негайно виявилося першим, на кого в нашому тематичному покажчику згадується зі змісту тексту «Спільна побудова знань».

Повертаємось до PDF-документа «Спільна побудова знань», щоб з’ясувати, на яких сторінках з’являється «Комп’ютерна неписьменність», набравши «ctrl + f», вписавши слово «Неграмотність» у поле пошуку та натиснувши «Enter» в кінці та кількість разів що необхідно, щоб знайти шукане слово на всіх сторінках. Ми відкриваємо новий документ у LibreOffice Writer, щоб створити наш тематичний індекс, або якщо ми працюємо над вмістом документа, який спочатку знаходиться в .odt, ми відкриваємо цей документ за допомогою LibreOffice, і ми створимо та відредагуємо його індекс на будь-якій сторінці:

Якщо ми також хочемо ідентифікуватись з AntConc, у яких реченнях "Комп'ютерна неписьменність" фігурує у всьому змісті документа "Construccion_colaborativa_del_conocimiento.txt", ми напишемо "Комп'ютерна безграмотність" у полі пошуку, знімемо прапорець "Справа", позначимо "Слова" та клацнемо на ньому починати":

Якщо ми клацнемо на будь-якому з рядків, виділених синім кольором на «Комп’ютерна неписьменність», наприклад у рядку 4, на вкладці «Перегляд файлу» він покаже нам фрагмент тексту, де цей виділений фрагмент буде виділений чорним від фон:

Таким чином, AntConc дуже корисний для нас, коли ми пишемо книгу, есе чи резюме, і паралельно не робимо тематичний покажчик або систематично аналізуємо основні ідеї твору для полегшення його читання.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.

  1.   RAW-Базовий - сказав він

    Дуже цікавий інструмент .. ..Я не знав про це .. і він мені дуже корисний ..

    Дякую..

  2.   Крістіанхд - сказав він

    дуже хороша стаття, цікава

  3.   Старий чоловік - сказав він

    Щиро дякую за обмін

  4.   Як встановити Linux - сказав він

    Великий внесок, дуже корисний. Знання того, що ви можете мати такі типи інструментів у Linux, завжди має значення. З повагою.

  5.   Фітошидо - сказав він

    Відмінний вхід. Мені подобається, що вони публікують такий тип вмісту!

  6.   джатан - сказав він

    Привіт всім. Дякуємо за ваші коментарі та вибачення за можливість коментувати. Я сподіваюся, що ті, хто впровадив репетиторство, не мали жодних проблем.