Kvalitativna analiza teksta i izrada indeksa predmeta s AntConc i LibreOffice

Saludos amigas y amigos, me da mucho gusto unirme y participar en lo que este a mi alcance de ahora en adelante en <° Desde Linux. Me llamo jathan y les comparto esta primera entrada a partir de una documentación que hice en el servicio social de la coordinación de informática de mi facultad. Espero que la encuentren interesante, les sea útil, así como hagan todo tipo de comentarios.

Kada u tekstualnoj datoteci želimo pronaći ključne riječi za izradu tematskog indeksa, analizirati glavne ideje djela ili neku drugu sličnu svrhu, moramo obaviti pretraživanja pomoću kojih možemo razlikovati velika i mala slova unutar riječi, kao i popis njih koji ističu željene znakove, poput slova, kako bismo mogli brže i praktičnije pronaći ključne riječi.

Cilj ove dokumentacije je predstaviti i objasniti uporabu aplikacije za kvalitativnu analizu teksta i uređivača teksta kako bi se olakšalo stvaranje tematskog indeksa sa Slobodnim softverom.

U prvom dijelu, postupak za instalaciju LibreOffice i izvršenje AntConc unutar operativnog sustava GNU / Linux i kasnije kako to učiniti u sustavima Windows i Mac OS, dok će u sljedećim dijelovima, bez obzira na operativni sustav, biti objašnjeno kako koristiti AntConc y LibreOffice Koristeći primjere za izradu indeksa predmeta.

LibreOffice i AntConc na GNU / Linuxu

Prvo što moramo učiniti je provjeriti je li LibreOffice instaliran na našoj GNU / Linux distribuciji. LibreOffice je besplatni multiplatform uredski paket licenciran s GPL-om i pomaže nam na jednostavan i učinkovit način uređivati ​​tekstualne dokumente, dijapozitive, proračunske tablice, baze podataka, crteže i matematičke formule.

Ako koristimo Debian, Linux Mint, Trisquel, Ubuntu ili bilo koja druga distribucija temeljena na Debian, Nećemo se više morati baviti njegovom instalacijom, jer je u većini ovih distribucija u njihovim najnovijim verzijama, kao i u drugima kao što su Mageia, Fedora i OpenSUSE, LibreOffice već unaprijed instaliran i samo ga morate pronaći i pokrenuti s ploče s programima ili naredbenim retkom.

Ako koristimo Debian Squeeze 6.0, moramo ažurirati OpenOffice na LibreOffice slijedeći ove upute: http://www.dobleseis.com.ar/instalar-libreoffice-3-en-debian-squeeze.

Nakon što se pobrinemo da je LibreOffice instaliran na našem sustavu, sada ćemo posjetiti web mjesto AntLab gdje možemo pronaći neke korisne aplikacije koje je razvio Laurence Anthony za kvalitativnu analizu teksta i podudaranje riječi s višeplatformnim izvršnim datotekama za GNU / Linux, Mac OS i Windows.

AntConc je aplikacija napisana na programskom jeziku Perl koja nam omogućuje popisivanje riječi po abecednom redoslijedu ili prema učestalosti pojavljivanja, ključne riječi, izradu podudarnosti i grupa riječi iz datoteke u formatu običnog teksta, razlikujući mala i velika slova. Da biste ga preuzeli, idite na ovu poveznicu: http: //www.antlab.sci.waseda.ac.jp/antconc_index.html i odaberite u petom stupcu gdje se pojavljuje pingvin Tux mogućnost preuzimanja AntConc 3.2.4u:

Po završetku preuzimanja odabrane datoteke otvaramo omiljeni preglednik datoteka (Pcmanfm, Nautilus, Thunar, Dolphin ili bilo koji drugi) otvaranjem kroz grafičku ploču okruženja koju koristimo ili pritiskom na alt + f2, upisujući njezino ime u malim slovima i pritisnite Enter na kraju, a zatim stvorite dva direktorija (mape) unutar našeg korisničkog direktorija, imenujući jedan Applications_extras i drugi AntConc kao poddirektorij prvog:

Sada idemo u direktorij u koji je preuzeta datoteka antconc3.2.4u.tar.gz (koja je u ovom primjeru Preuzimanja), a datoteku otvaramo pomoću Xarchiver ili Fileroller da bismo raspakirali njezin sadržaj u direktorij Antconc odabirom opcije izdvajanja u našem upravitelju datotekama i naznačujući put do direktorija / home / user / Extra_Applications / AntConc:

Nakon što se sadržaj paketa antconc3.2.4u.tar.gz izvuče u direktorij AntConc unutar Applications_extras, identificiramo datoteku antconc3.2.4u kako bismo joj dali dozvole za izvršavanje klikom desne tipke miša, unijeli svojstva i omogućili izvršavanje datoteka kao program:

A time bismo trebali moći otvoriti AntConc dvostrukim klikom miša na datoteku antconc3.2.4u.

Ako više volimo, sve prethodne postupke možemo izvršiti putem terminala izvršavanjem sljedećih naredbi i promjenom "user" imenom koje koristimo u našoj sesiji:

Da biste kreirali direktorije:

$ mkdir / home / user / Applications_extras (pritisnite enter)
$ mkdir / home / user / Applications_extras / AntConc (pritisnite enter)

Prijeđite na direktorij AntConc i izvucite sadržaj antconc3.2.4u.tar.gz:

$ cd / home / user / Applications_extras / AntConc / (pritisnite enter)
$ tar -xzvf /home/usuario/Descargas/antconc3.2.4u.tar.gz(press enter)

Omogućite pokretanje datoteke antconc3.2.4u kao programa:

$ chmod + x antconc3.2.4u (pritisnite enter)

I pokrenite AntConc:

$ /home/usuario/Aplicaciones_extras/AntConc/antconc3.2.4u(press enter)

Bez obzira na odabrani postupak, ako želimo, možemo kopirati datoteku antconc3.2.4u u direktorij / usr / bin i dati joj potrebna dopuštenja za pokretanje AntConca s terminala ili s alt + f2 jednostavnim pisanjem antconc3.2.4u. Za to izvršavamo sljedeće naredbe kao superuser sa su ili sudo:

$ tvoj
(napišemo root lozinku i pritisnemo enter)
# cp /home/user/Extras_Applications/AntConc/antconc3.2.4u / usr / bin
# chmod a + rwx /usr/bin/antconc3.2.4u
# Izlaz

I sada, samo pokretanjem antconc3.2.4u s našim korisnikom iz bilo kojeg emulatora terminala, AntConc će se otvoriti kao što je prikazano na prethodnoj slici.

$antconc3.2.4u

Korištenje AntConca za popisivanje riječi prema određenom znaku

Nakon što smo već identificirali način preuzimanja i pokretanja AntConca, sada ćemo ustupiti primjer kako bismo prikazali njegovu upotrebu za lociranje nekih riječi pomoću pretraživanja abecednim redom znakova u malim i velikim slovima. Ako želite dublje ući u rad AntConca i sve njegove mogućnosti korištenja, možete pogledati dokument README_AntConc3.2.4.pdf u našem direktoriju / home / user / Aplicaciones_extras / AntConc ili ga preuzeti s http: //www.antlab .sci.waseda.ac.jp / software / antconc335 / AntConc_readme.pdf, kao i konzultirati internetsku pomoć ili pogledati AntConc video vodiče dostupne na njihovoj web stranici http://www.antlab.sci.waseda.ac. jp / antconc_index.html

AntConc može raditi samo s datotekama s običnim tekstom (".txt"), ".html", ".hml," ".xml" i vlastitim formatom ".ant", pa je sadržaj dokumenta od kojeg ćemo napraviti identifikacija riječi, promijenit ćemo je iz izvornog formata u ".odt", ".rtf", ".pdf" ili nekom drugom u ".txt" čineći odabir cjelokupnog sadržaja, kopirajući ga i lijepeći u novi tekstualni dokument avion koji pokreće naš preferirani uređivač teksta (Leafpad, Gedit, Vim, Emacs, između ostalih). U ovom primjeru nastojat ćemo stvoriti tematski indeks iz knjige «Kolaborativna izgradnja znanja» iz kojega možemo posjetiti njezinu web stranicu: http://seminario.edusol.info/seco3/ i koji možemo slobodno preuzeti s ove poveznice: http: / /seminario.edusol.info/seco3/pdf/seco3.pdf

Jednom kada se datoteka preuzme, pronalazimo je u našem direktoriju za preuzimanja, otvaramo je pomoću pregledača pdf dokumenata (u ovom primjeru Evince), odabiremo sav njezin sadržaj pritiskom na ctrl + a, kopiramo ga i zalijepimo u novu ravninu tekstualni dokument:

I novi dokument čuvamo u običnom tekstu s imenom "Construccion_colaborativa_del_conocimiento.txt" u direktoriju Dokumenti:

Sada pokrećemo AntConc i s prve kartice u gornjem lijevom uglu pod nazivom "Datoteka" otvaramo datoteku "Construccion_colaborativa_del_knowledge.txt":

U lijevom stupcu nazvanom "Korpusne datoteke" sada će se pojaviti naziv naše tekstualne datoteke, što znači da ćemo raditi na ovoj datoteci, jer u AntConc možemo učitati više tekstualnih datoteka i raditi na njima zajedno ili odvojeno:

Sada ćemo napraviti popis svih riječi koje sadrže znak "A", kako bismo identificirali ključnu riječ s ovim velikim slovom, budući da nam AntConc nudi mogućnost razlikovanja malih i velikih slova, što je vrlo korisno za prepoznavanje vlastitih imena ili kratice u obliku popisa. Zbog toga postavimo prvu karticu pod nazivom «Concordance» s desne strane «Corpus Files», poništite potvrdni okvir «Words» da biste označili okvir «Case», oboje u donjoj desnoj strani «Pojma za pretraživanje», u polje upisujemo Pretražite ispod slova A i kliknite na ljubičasti pravokutnik na kojem stoji "Start":

I navest će rezultate sljedećeg. oblik:

Kao što vidimo, neki znakovi napisani s naglascima izgledaju slično riječi "Autónoma" umjesto "Autónoma". To je zato što AntConcu moramo reći odgovarajući jezik kodiranja za naš jezik, jer AntConc ne otkriva da prema zadanim postavkama koristimo španjolski. Za to otvaramo karticu «Globlal Settings» na vrhu pored «File», idemo na zadnju opciju «Language Encoding Settings» s desne strane kliknemo na «Edit» odabiremo prvu opciju «Standard Encodings »Kliknemo na nju, odaberemo treću opciju s popisa koji se pojavi s desne strane" Unicode (utf8) "i kliknemo na okvir" Primijeni "u donjem desnom dijelu prozora:

Nakon primjene promjena, ponovno kliknemo na ljubičasti pravokutnik «Start» i naglašeni znakovi sada će se pojaviti čitko:

Sada pregledavamo riječi s plavom bojom označenom slovom A radi lakšeg prepoznavanja i na temelju naših razmatranja odabiremo one koje želimo uvrstiti u tematski indeks, na primjer "Računalna nepismenost" u retku broj 17 najčešća je Riječ neposredna utvrđena je prva na koju se u našem tematskom indeksu upućuje iz sadržaja teksta «Kolaborativna konstrukcija znanja».

Vraćamo se u pdf dokument «Kolaborativna konstrukcija znanja» kako bismo pronašli na kojim se stranicama pojavljuje «Računalna nepismenost» upisivanjem «ctrl + f», upisivanjem riječi «Nepismenost» u polje za pretraživanje i pritiskom na «enter» na kraju i brojem puta to je potrebno za pronalaženje pretraživane riječi na svim stranicama. Otvaramo novi dokument u LibreOffice Writeru da bismo kreirali indeks predmeta ili ako radimo na sadržaju dokumenta koji je izvorno u .odt, otvorit ćemo taj dokument pomoću LibreOffice i stvorit ćemo i urediti njegov indeks predmeta na bilo kojoj stranici:

Ako se također želimo identificirati s AntConcom u kojim se rečenicama "Računalna nepismenost" pojavljuje u čitavom sadržaju dokumenta "Construccion_colaborativa_del_conocimiento.txt", u polje za pretraživanje napišemo "Računalna nepismenost", poništite potvrdni okvir "Case", označite "Words" i kliknite ga početi":

Ako kliknemo na bilo koji redak označen plavom bojom na „Računalna nepismenost”, na primjer u retku 4, na kartici „Prikaz datoteke” prikazat će nam fragment teksta u kojem je ovaj odabir označen crnom bojom od pozadina:

Na taj nam je način AntConc vrlo koristan kada smo napisali knjigu, esej ili sažetak i paralelno nismo radili tematski indeks ili sustavno analizirali glavne ideje djela kako bismo olakšali njegovo čitanje.


Ostavite svoj komentar

Vaša email adresa neće biti objavljen. Obavezna polja su označena s *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obvezi.
  5. Pohrana podataka: Baza podataka koju hostira Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   RAW-Basic dijo

    Vrlo zanimljiv alat .. ..Nisam znao za to .. i vrlo mi je koristan ..

    Hvala vam..

  2.   Cristianhcd dijo

    vrlo dobar članak, zanimljiv

  3.   Starac dijo

    Hvala vam puno za dijeljenje

  4.   Kako instalirati Linux dijo

    Veliki doprinos, vrlo koristan. Znanje da ove vrste alata možete imati u Linuxu uvijek je važno. Pozdrav.

  5.   Fitosido dijo

    Izvrsan ulaz. Sviđa mi se što objavljuju ovu vrstu sadržaja!

  6.   Jathan dijo

    Pozdrav svima. Hvala na komentarima i isprika što ste do sada mogli komentirati. Nadam se da oni koji su tutorstvo provodili u praksi nisu imali problema.