Análisis cualitativo de texto y creación de índices temáticos con AntConc y LibreOffice

Saludos amigas y amigos, me da mucho gusto unirme y participar en lo que este a mi alcance de ahora en adelante en <° Desde Linux. Me llamo jathan y les comparto esta primera entrada a partir de una documentación que hice en el servicio social de la coordinación de informática de mi facultad. Espero que la encuentren interesante, les sea útil, así como hagan todo tipo de comentarios.

Cuando en algún archivo de texto queremos encontrar palabras clave para la creación de un índice temático, analizar las ideas principales de una obra o algún otro propósito semejante, necesitamos hacer búsquedas mediante las cuales podamos distinguir entre caracteres con mayúsculas y minúsculas dentro de las palabras, así como un listado de estas resaltando los caracteres deseados como alguna letra para que logremos de manera más rápida y práctica la localización de palabras clave.

La presente documentación tiene como objetivo presentar y explicar el uso de una aplicación de análisis textual cualitativo y un editor de texto para facilitar la realización de un índice temático con Software Libre.

En la primera parte se explicará el procedimiento para la instalación de LibreOffice y la ejecución de AntConc dentro del sistema operativo GNU/Linux y posteriormente como hacerlo dentro de los sistemas Windows y Mac OS, mientras que en las siguientes partes independientemente del sistema operativo, se explicará como utilizar AntConc y LibreOffice mediante ejemplos para crear un índice temático.

LibreOffice y AntConc en GNU/Linux

Lo primero que necesitamos hacer es verificar que tengamos instalado LibreOffice en nuestra distribución GNU/Linux. LibreOffice es una suite ofimática libre multiplataforma licenciada con GPL y que nos sirve para editar documentos de texto, diapositivas, hojas de cálculo, bases de datos, dibujos y fórmulas matemáticas de forma sencilla y eficaz.

Si estamos usando Debian, LinuxMint, Trisquel, Ubuntu o cualquier otra distribución basada en Debian, ya no nos tendremos que ocupar de su instalación ya que en la mayoría de estas distribuciones en sus versiones más recientes así como en otras como Mageia, Fedora y OpenSUSE, LibreOffice ya viene preinstalado y sólo hay que buscarlo y ejecutarlo desde el panel de aplicaciones o por línea de comandos.

Si estamos usando Debian Squeeze 6.0 tenemos que actualizar OpenOffice a LibreOffice siguiendo estas indicaciones: http://www.dobleseis.com.ar/instalar-libreoffice-3-en-debian-squeeze.

Después de asegurarnos de tener LibreOffice instalado en nuestro sistema, ahora daremos paso a visitar la página web de AntLab donde podemos encontrar algunas aplicaciones útiles desarrolladas por  Laurence Anthony para análisis cualitativo de texto y concordancia de palabras con archivos ejecutables multiplataforma para GNU/Linux, Mac OS y Windows.

AntConc es una aplicación escrita en el lenguaje de programación Perl que nos sirve para listar palabras por orden alfabético o por frecuencia de aparición, palabras clave, realizar concordancias y grupos de palabras desde un archivo en formato de texto plano distinguiendo caracteres en minúsculas y mayúsculas. Para descargarlo entramos a este enlace:http://www.antlab.sci.waseda.ac.jp/antconc_index.html y seleccionamos en la quinta columna donde aparece el pingüino Tux la opción para descargar AntConc 3.2.4u:

Cuando finalice la descarga del archivo seleccionado, abrimos nuestro navegador de archivos preferido (Pcmanfm, Nautilus, Thunar, Dolphin o cualquier otro) abriéndolo a través del panel del entorno gráfico que usemos o presionando alt+f2, escribiendo su nombre en minúsculas y dando enter al final para después crear dos directorios (carpetas) dentro de nuestro directorio de usuario, nombrando uno Aplicaciones_extras y otro AntConc como subdirectorio del primero:

Ahora nos vamos al directorio donde se descargó el archivo antconc3.2.4u.tar.gz (siendo en este ejemplo Descargas) y abrimos el archivo con Xarchiver o Fileroller para descomprimir su contenido al directorio Antconc seleccionando la opción extraer en nuestro gestor de archivos e indicándole la ruta de directorios /home/usuario/Aplicaciones_extras/AntConc:

Una vez extraído el contenido del paquete antconc3.2.4u.tar.gz al directorio AntConc dentro de Aplicaciones_extras, identificamos el archivo antconc3.2.4u para darle permisos de ejecución dándole clic con el botón derecho del mouse, entrar a propiedades y permitir ejecutar el archivo como un programa:

Y con esto ya deberíamos poder abrir AntConc dando doble clic con el mouse sobre el archivo antconc3.2.4u.

Si lo preferimos, podemos hacer todo el procedimiento anterior a través de la terminal ejecutando las siguientes ordenes y cambiando «usuario» por el nombre que utilizamos en nuestra sesión:

Para crear los directorios:

$ mkdir /home/usuario/Aplicaciones_extras(pulsar enter)
$ mkdir /home/usuario/Aplicaciones_extras/AntConc(pulsar enter)

Cambiarnos al directorio AntConc y realizar la extracción del contenido de antconc3.2.4u.tar.gz:

$ cd /home/usuario/Aplicaciones_extras/AntConc/(pulsar enter)
$ tar -xzvf /home/usuario/Descargas/antconc3.2.4u.tar.gz(pulsar enter)

Permitir ejecutar el archivo antconc3.2.4u como un programa:

$ chmod +x antconc3.2.4u(pulsar enter)

Y ejecutar AntConc:

$ /home/usuario/Aplicaciones_extras/AntConc/antconc3.2.4u(pulsar enter)

Independientemente del procedimiento que elijamos, si lo deseamos podemos copiar el archivo antconc3.2.4u al directorio /usr/bin y darle los permisos necesarios para poder ejecutar AntConc desde la terminal o con alt+f2 escribiendo únicamente antconc3.2.4u. Para esto ejecutamos las siguientes ordenes como superusuario con su o sudo:

$ su
(escribimos nuestra contraseña de root y damos enter)
# cp /home/usuario/Aplicaciones_extras/AntConc/antconc3.2.4u /usr/bin
# chmod a+rwx /usr/bin/antconc3.2.4u
# exit

Y ahora tan sólo con ejecutar antconc3.2.4u con nuestro usuario desde cualquier emulador de terminal, se abrirá AntConc como se muestra en la imagen anterior.

$ antconc3.2.4u

Utilización de AntConc para listar palabras a través de un carácter específico

Ya teniendo identificado como descargar y ejecutar AntConc, ahora daremos paso a ejemplificar su uso para la localización de algunas palabras mediante una búsqueda por orden alfabético de caracteres tanto en minúsculas como en mayúsculas. Si se desea profundizar más detalladamente en el funcionamiento de AntConc y todas sus posibilidades de uso, se puede consultar el documento README_AntConc3.2.4.pdf dentro de nuestro directorio /home/usuario/Aplicaciones_extras/AntConc o descargarse desde http://www.antlab.sci.waseda.ac.jp/software/antconc335/AntConc_readme.pdf, así como consultar la ayuda en línea o ver los video tutoriales de AntConc disponibles en su sitio web http://www.antlab.sci.waseda.ac.jp/antconc_index.html

AntConc sólo puede trabajar con archivos de texto plano («.txt»), «.html», «.hml,» «.xml» y su formato propio «.ant»,  por lo que el contenido del documento del cual realizaremos la identificación de palabras, lo pasaremos de su formato original en «.odt», «.rtf», «.pdf» o alguno otro a «.txt» haciendo una selección de todo el contenido, copiándolo y pegándolo a un nuevo documento de texto plano ejecutando nuestro editor de texto preferido (Leafpad, Gedit, Vim, Emacs, entre otros). En este ejemplo buscaremos crear un índice temático a partir del libro «Construcción colaborativa del conocimiento» del cual podemos visitar su sitio web: http://seminario.edusol.info/seco3/ y que podemos descargar libremente desde este enlace: http://seminario.edusol.info/seco3/pdf/seco3.pdf

Una vez descargado el archivo, lo localizamos en nuestro directorio de descargas, lo abrimos con nuestro visor de documentos pdf (en este ejemplo Evince), seleccionamos todo su contenido presionando ctrl+a, lo copiamos y lo pegamos en un nuevo documento de texto plano:

Y guardamos nuestro nuevo documento en texto plano con el nombre de «Construccion_colaborativa_del_conocimiento.txt» en el directorio Documentos:

Ahora ejecutamos AntConc y desde la primera pestaña superior izquierda llamada «File» abrimos el archivo «Construccion_colaborativa_del_conocimiento.txt»:

En la columna izquierda llamada «Corpus Files» ahora nos aparecerá el nombre de nuestro archivo de texto indicándonos que sobre este archivo estaremos trabajando, ya que en AntConc podemos cargar más de un archivo de texto y trabajar sobre ellos conjuntamente o por separado:

Ahora lo que haremos será listar todas las palabras que contengan el carácter «A», para identificar alguna palabra clave con esta letra en mayúscula, ya que AntConc nos ofrece la posibilidad de distinguir letras minúsculas y mayúsculas, siendo esto muy útil para identificar nombres propios o siglas en forma de lista. Para esto ubicamos la primera pestaña llamada «Concordance» al lado derecho de «Corpus Files» desmarcamos la casilla «Words» para marcar la de «Case» ambas en la parte de abajo al lado derecho de «Search Term», escribimos en el campo de búsqueda abajo la letra A y le damos clic al rectángulo morado que dice «Start»:

Y nos listará los resultados de la sig. forma:

Como podemos ver algunos caracteres escritos con acento aparecen semejante a la palabra «Autónoma» en lugar de «Autónoma». Esto se debe a que debemos indicarle a AntConc el lenguaje de codificación adecuado para nuestro idioma, ya que AntConc no detecta que estamos usando el español de forma predeterminada. Para esto abrimos la pestañana «Globlal Settings» en la parte de arriba a lado de «File», nos vamos a la última opción «Language Encoding Settings» en el lado derecho le damos clic a «Edit» seleccionamos la primera opción «Standard Encodings» le damos un clic, seleccionamos la tercera opción de la lista que se nos despliega a la derecha «Unicode (utf8)» y le damos clic al recuadro de «Apply» en la parte inferior derecha de la ventana:

Después de aplicar los cambios, nuevamente le damos clic al rectángulo morado de «Start» y los caracteres con acento ya nos aparecerán de forma legible:

Ahora vamos revisando las palabras con la letra A resaltada en color azul para su fácil identificación y con base a nuestras consideraciones, vamos seleccionando las que deseemos incluir en el índice temático, siendo por ejemplo «Analfabetización informática» en la fila número 17 la palabra más inmediata encontrada para ser la primera a referirse en nuestro índice temático a partir del contenido del texto de «Construcción colaborativa del conocimiento».

Regresamos al documento pdf «Construcción colaborativa del conocimiento» para localizar en que páginas aparece «Analfabetización informática» tecleando «ctrl+f», escribiendo la palabra «Analfabetización» en el campo de búsqueda y pulsando «enter» al final y el número de veces que sea necesario para localizar en todas las páginas la palabra buscada. Abrimos un documento nuevo en LibreOffice Writer para ir creando nuestro índice temático o si estuviéramos trabajando sobre el contenido de un documento que originalmente está en .odt, abrimos ese documento con LibreOffice y sólo iremos creando y editando en alguna página su índice temático:

Si además queremos identificar con AntConc en que oraciones aparece «Analfabetización informática» en todo el contenido del documento «Construccion_colaborativa_del_conocimiento.txt», escribimos  «Analfabetización informática» en el campo de búsqueda, desmarcamos «Case», marcamos «Words» y  le damos clic a «Start»:

Si le damos clic en alguna de las filas resaltadas a «Analfabetización informática» con color azul, por ejemplo en la fila 4, en la pestaña de «File View» nos mostrará el fragmento del texto en donde aparece esta selección resaltada con color negro de fondo:

De esta forma, AntConc nos es muy útil cuando hemos escrito algún libro, ensayo o resumen y no fuimos haciendo paralelamente un índice temático o para analizar de manera sistemática las ideas principales de alguna obra para facilitarnos su lectura.


6 comentarios, deja el tuyo

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: Miguel Ángel Gatón
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.

  1.   RAW-Basic dijo

    Muy interesante herramienta.. ..la desconocía..y me viene muy útil..

    Gracias..

  2.   cristianhcd dijo

    muy buen artículo, interesante

  3.   Viejito dijo

    Muchas gracias por compartir

  4.   Como Instalar Linux dijo

    Grandioso aporte, muy útil. Saber que en linux puedes tener este tipo de herramientas siempre hace la diferencia. Saludos.

  5.   Fitoschido dijo

    Excelente entrada. Me gusta que publiquen este tipo de contenidos!

  6.   jathan dijo

    Hola a todos. Gracias por sus comentarios y una disculpa por poder comentar hasta ahora. Espero que quienes hayan puesto en práctica el tuto no hayan tenido ningún problema.