Качественный анализ текста и создание предметных указателей с помощью AntConc и LibreOffice

Приветствую друзей и друзей, я очень рад присоединиться и участвовать в том, что теперь доступно мне в <° From Linux. Меня зовут Джатан, и я делюсь с вами этой первой записью на основе документации, которую я сделал в социальной службе координации информатики моего факультета. Надеюсь, вы найдете это интересным, полезным и сделаете всевозможные комментарии.

Когда в текстовом файле мы хотим найти ключевые слова для создания тематического указателя, проанализировать основные идеи произведения или какую-либо другую аналогичную цель, нам нужно выполнить поиск, с помощью которого мы можем различать символы верхнего и нижнего регистра внутри слова, а также их список с выделением нужных символов, таких как буква, чтобы мы могли находить ключевые слова более быстрым и практичным способом.

Настоящая документация направлена ​​на представление и объяснение использования приложения для качественного текстового анализа и текстового редактора, чтобы облегчить создание тематического указателя с помощью свободного программного обеспечения.

В первой части процедура установки LibreOffice и выполнение AntConc в операционной системе GNU / Linux и позже, как это сделать в системах Windows и Mac OS, а в следующих частях, независимо от операционной системы, будет объяснено, как использовать AntConc y LibreOffice Использование примеров для создания предметного указателя.

LibreOffice и AntConc в GNU / Linux

Первое, что нам нужно сделать, это убедиться, что у нас установлен LibreOffice в нашем дистрибутиве GNU / Linux. LibreOffice - это бесплатный мультиплатформенный офисный пакет с лицензией GPL, который помогает нам редактировать текстовые документы, слайды, электронные таблицы, базы данных, рисунки и математические формулы простым и эффективным способом.

Если мы используем Debian, LinuxMint, Trisquel, Ubuntu или любой другой дистрибутив на основе Debian, Нам больше не придется заниматься его установкой, так как в большинстве этих дистрибутивов в их последних версиях, а также в других, таких как Mageia, Fedora и OpenSUSE, LibreOffice уже предустановлен, и вам просто нужно найти его и запустить из панели приложений или из командной строки.

Если мы используем Debian Squeeze 6.0, мы должны обновить OpenOffice до LibreOffice, следуя этим инструкциям: http://www.dobleseis.com.ar/instalar-libreoffice-3-en-debian-squeeze.

Убедившись, что в нашей системе установлен LibreOffice, мы переходим к посещению веб-сайта AntLab, где мы можем найти некоторые полезные приложения, разработанные Лоуренсом Энтони для качественного анализа текста и сопоставления слов с кроссплатформенными исполняемыми файлами для GNU / Linux, Mac OS и Windows.

AntConc - это приложение, написанное на языке программирования Perl, которое помогает нам перечислять слова в алфавитном порядке или по частоте появления, ключевым словам, находить совпадения и группы слов из файла в обычном текстовом формате, различая строчные и прописные буквы. Чтобы загрузить его, перейдите по этой ссылке: http: //www.antlab.sci.waseda.ac.jp/antconc_index.html и выберите в пятом столбце, где появляется пингвин Тукс, вариант загрузки AntConc 3.2.4u:

Когда загрузка выбранного файла завершена, мы открываем предпочитаемый нами файловый браузер (Pcmanfm, Nautilus, Thunar, Dolphin или любой другой), открыв его через панель графической среды, которую мы используем, или нажав alt + f2, записав его имя в строчными буквами и нажатием Enter в конце, а затем создайте два каталога (папки) в нашем пользовательском каталоге, назвав один Applications_extras и другой AntConc в качестве подкаталога первого:

Теперь мы переходим в каталог, в который был загружен файл antconc3.2.4u.tar.gz (в данном примере это Загрузки), и открываем файл с помощью Xarchiver или Fileroller, чтобы распаковать его содержимое в каталог Antconc, выбрав опцию извлечения в нашем файловый менеджер и указав путь к каталогу / home / user / Extra_Applications / AntConc:

После того, как содержимое пакета antconc3.2.4u.tar.gz было извлечено в каталог AntConc в Applications_extras, мы идентифицируем файл antconc3.2.4u, чтобы дать ему права на выполнение, щелкнув правой кнопкой мыши, введите свойства и разрешите выполнение файла как программы:

И теперь мы сможем открыть AntConc двойным щелчком мыши по файлу antconc3.2.4u.

Если мы предпочитаем, мы можем выполнить всю предыдущую процедуру через терминал, выполнив следующие команды и изменив "user" на имя, которое мы используем в нашем сеансе:

Чтобы создать каталоги:

$ mkdir / home / user / Applications_extras (нажмите Enter)
$ mkdir / home / user / Applications_extras / AntConc (нажмите Enter)

Перейдите в каталог AntConc и извлеките содержимое antconc3.2.4u.tar.gz:

$ cd / home / user / Applications_extras / AntConc / (нажмите Enter)
$ tar -xzvf /home/usuario/Descargas/antconc3.2.4u.tar.gz (нажмите ввод)

Разрешить запускать файл antconc3.2.4u как программу:

$ chmod + x antconc3.2.4u (нажмите Enter)

И запускаем AntConc:

$ /home/usuario/Aplicaciones_extras/AntConc/antconc3.2.4u (нажмите ввод)

Независимо от выбранной нами процедуры, при желании мы можем скопировать файл antconc3.2.4u в каталог / usr / bin и дать ему необходимые разрешения, чтобы иметь возможность запускать AntConc из терминала или с помощью alt + f2, записывая только antconc3.2.4 .XNUMXu. Для этого мы выполняем следующие команды как суперпользователь с помощью su или sudo:

$ su
(мы пишем наш пароль root и нажимаем Enter)
# cp /home/user/Extras_Applications/AntConc/antconc3.2.4u / usr / bin
# chmod a + rwx /usr/bin/antconc3.2.4u
# Выход

И теперь, просто запустив antconc3.2.4u с нашим пользователем из любого эмулятора терминала, AntConc откроется, как показано на предыдущем изображении.

$ antconc3.2.4u

Использование AntConc для перечисления слов по определенному символу

Мы уже определили, как загрузить и запустить AntConc, теперь мы дадим возможность проиллюстрировать его использование для поиска некоторых слов посредством поиска в алфавитном порядке символов как в нижнем, так и в верхнем регистре. Если вы хотите глубже изучить работу AntConc и все возможности его использования, вы можете обратиться к документу README_AntConc3.2.4.pdf в нашем каталоге / home / user / Aplicaciones_extras / AntConc или загрузить его с http: //www.antlab .sci.waseda.ac.jp / software / antconc335 / AntConc_readme.pdf, а также обратитесь к интерактивной справке или посмотрите видеоуроки AntConc, доступные на его веб-сайте http://www.antlab.sci.waseda.ac. jp / antconc_index.html

AntConc может работать только с текстовыми файлами («.txt»), «.html», «.hml», «.xml» и собственным форматом «.ant», поэтому содержимое документа, из которого мы будем делать определение слова, мы изменим его исходный формат в ".odt", ".rtf", ".pdf" или какой-либо другой на ".txt", выделив все содержимое, скопировав и вставив его в новый текст плоскость документа, в которой работает наш предпочтительный текстовый редактор (Leafpad, Gedit, Vim, Emacs и другие). В этом примере мы попытаемся создать тематический указатель из книги «Совместное конструирование знаний», из которого мы можем перейти на его веб-сайт: http://seminario.edusol.info/seco3/ и который мы можем бесплатно скачать по этой ссылке: http: / /seminario.edusol.info/seco3/pdf/seco3.pdf

После того, как файл загружен, мы находим его в нашем каталоге загрузок, мы открываем его с помощью нашей программы просмотра PDF-документов (в этом примере Evince), мы выбираем все его содержимое, нажимая ctrl + a, мы копируем его и вставляем в новый простой текстовый документ:

И мы сохраняем наш новый документ в виде обычного текста с именем «Construccion_colaborativa_del_conocimiento.txt» в каталоге Documents:

Теперь мы запускаем AntConc и из первой вкладки в верхнем левом углу под названием «Файл» открываем файл «Construccion_colaborativa_del_conocimiento.txt»:

В левом столбце под названием «Corpus Files» теперь появится имя нашего текстового файла, указывающее, что мы будем работать с этим файлом, поскольку в AntConc мы можем загрузить более одного текстового файла и работать с ними вместе или по отдельности:

Теперь мы составим список всех слов, содержащих символ «A», чтобы идентифицировать ключевое слово с этой заглавной буквой, поскольку AntConc предлагает нам возможность различать строчные и прописные буквы, что очень полезно для определения имен собственных или сокращений. в виде списка. Для этого мы помещаем первую вкладку под названием «Concordance» справа от «Corpus Files», мы снимаем флажок «Слова», чтобы отметить поле «Case», оба в правом нижнем углу «Search Term», мы пишем в поле поиска под буквой A и щелкните фиолетовый прямоугольник с надписью «Start»:

И в нем будут перечислены результаты следующего. форма:

Как мы видим, некоторые иероглифы, написанные с ударением, похожи на слово «Autónoma» вместо «Autónoma». Это потому, что мы должны указать AntConc соответствующий язык кодирования для нашего языка, поскольку AntConc не обнаруживает, что мы используем испанский по умолчанию. Для этого мы открываем вкладку «Глобальные настройки» вверху рядом с «Файл», переходим к последней опции «Настройки языковой кодировки» справа, нажимаем «Редактировать» и выбираем первую опцию «Стандартные кодировки» Щелкаем по нему, выбираем третий вариант из появившегося справа списка «Unicode (utf8)» и нажимаем на поле «Применить» в нижней правой части окна:

После применения изменений снова щелкаем по фиолетовому прямоугольнику «Пуск», и акцентированные символы теперь будут отображаться разборчиво:

Теперь мы проверяем слова с буквой A, выделенной синим цветом для облегчения идентификации, и, исходя из наших соображений, мы выбираем те, которые хотим включить в тематический указатель, например, «Компьютерная неграмотность» в строке номер 17 является наиболее распространенной. Слово «немедленное» оказалось первым, на которое ссылаются в нашем тематическом указателе из содержания текста «Совместного конструирования знаний».

Мы возвращаемся к pdf-документу «Совместное построение знаний», чтобы найти, на каких страницах появляется «Компьютерная неграмотность», набрав «ctrl + f», написав слово «Неграмотность» в поле поиска и нажав «Enter» в конце и количество раз, необходимое для поиска искомого слова на всех страницах. Мы открываем новый документ в LibreOffice Writer для создания предметного указателя или, если мы работаем с содержимым документа, который изначально находится в формате .odt, мы открываем этот документ с помощью LibreOffice, и мы будем создавать и редактировать его предметный указатель только на любой странице. :

Если мы также хотим определить с помощью AntConc, в котором предложения «Компьютерная неграмотность» появляются во всем содержимом документа «Construccion_colaborativa_del_conocimiento.txt», мы пишем «Компьютерная неграмотность» в поле поиска, снимаем флажок «Случай», отмечаем «Слова» и щелкните его, чтобы «Пуск»:

Если мы нажмем на любую из строк, выделенных синим цветом на «Компьютерная безграмотность», например, в строке 4, во вкладке «Просмотр файлов» нам будет показан фрагмент текста, в котором появляется этот выбор, выделенный черным цветом фона. :

Таким образом, AntConc очень полезен для нас, когда мы написали книгу, эссе или резюме, и мы не составляли параллельно тематический указатель или систематически анализировали основные идеи работы, чтобы облегчить ее чтение.


Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.

6 комментариев, оставьте свой

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: Мигель Анхель Гатон
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

  1.   RAW-Basic сказал

    Очень интересный инструмент .. .. Я не знал об этом .. и он очень полезен ..

    Спасибо ..

  2.   Cristianhcd сказал

    очень хорошая статья, интересная

  3.   Пожилой человек сказал

    Большое спасибо за обмен

  4.   Как установить Linux сказал

    Большой вклад, очень полезный. Знание того, что у вас могут быть такие инструменты в Linux, всегда имеет значение. Привет.

  5.   Фитошидо сказал

    Отличный вход. Мне нравится, что они публикуют такой контент!

  6.   Джатан сказал

    Всем привет. Спасибо за ваши комментарии и извинения за возможность комментировать до сих пор. Надеюсь, что у тех, кто практиковал репетиторство, проблем не было.