Kvalitativna analiza teksta i izrada indeksa predmeta sa AntConc i LibreOffice

Pozdrav prijatelji, veoma sam sretan što se pridružim i učestvujem u svemu što mi je nadohvat ruke od sada u <° Desde Linux. Moje ime je Jathan i dijelim s vama ovaj prvi unos na osnovu dokumentacije koju sam uradio u socijalnoj službi IT koordinacije mog fakulteta. Nadam se da će vam biti zanimljivo, korisno i da ćete ostaviti sve vrste komentara.

Kada u tekstualnoj datoteci želimo pronaći ključne riječi za izradu tematskog indeksa, analizirati glavne ideje djela ili neku drugu sličnu svrhu, moramo obaviti pretraživanja pomoću kojih možemo razlikovati velika i mala slova unutar riječi, kao i popis ovih koji ističu željene znakove, poput slova, tako da možemo brže i praktičnije pronaći ključne riječi.

Cilj sadašnje dokumentacije je predstaviti i objasniti upotrebu aplikacije za kvalitativnu analizu teksta i uređivača teksta kako bi se olakšala realizacija tematskog indeksa sa Slobodnim softverom.

Prvi dio će objasniti postupak instaliranja LibreOffice i izvršenje AntConc unutar operativnog sistema GNU / Linux i kasnije kako to učiniti u sustavima Windows i Mac OS, dok će u sljedećim dijelovima, bez obzira na operativni sistem, biti objašnjeno kako se koristi AntConc y LibreOffice Koristeći primjere za stvaranje indeksa predmeta.

LibreOffice i AntConc na GNU / Linuxu

Prvo što moramo učiniti je provjeriti imamo li LibreOffice instaliran na našoj GNU / Linux distribuciji. LibreOffice je besplatni multiplatform uredski paket licenciran s GPL-om i pomaže nam na jednostavan i učinkovit način uređivati ​​tekstualne dokumente, slajdove, proračunske tablice, baze podataka, crteže i matematičke formule.

Ako koristimo Debian, Linux Mint, Trisquel, Ubuntu ili bilo koja druga distribucija zasnovana na Debian, Nećemo se više morati baviti njegovom instalacijom, jer je u većini ovih distribucija u njihovim najnovijim verzijama, kao i u drugima kao što su Mageia, Fedora i OpenSUSE, LibreOffice već unaprijed instaliran i samo ga morate pronaći i pokrenuti s panela aplikacija ili komandnom linijom.

Ako koristimo Debian Squeeze 6.0, moramo ažurirati OpenOffice na LibreOffice slijedeći ove upute: http://www.dobleseis.com.ar/instalar-libreoffice-3-en-debian-squeeze.

Nakon što se uvjerimo da je LibreOffice instaliran na našem sustavu, sada ćemo prijeći na posjet web stranici AntLab gdje možemo pronaći neke korisne aplikacije koje je razvio Laurence Anthony za kvalitativnu analizu teksta i podudaranje riječi s višeplatformnim izvršnim datotekama za GNU / Linux, Mac OS i Windows.

AntConc je aplikacija napisana na programskom jeziku Perl koja nam pomaže da popisamo riječi po abecednom redu ili prema učestalosti pojavljivanja, ključne riječi, podudaramo se i grupe riječi iz datoteke u običnom tekstualnom formatu, razlikujući mala i velika slova. Da biste ga preuzeli, idite na ovaj link: http: //www.antlab.sci.waseda.ac.jp/antconc_index.html i odaberite u petom stupcu gdje se pojavljuje pingvin Tux mogućnost preuzimanja AntConc 3.2.4u:

Kada je preuzimanje odabrane datoteke završeno, otvaramo omiljeni pregledač datoteka (Pcmanfm, Nautilus, Thunar, Dolphin ili bilo koji drugi) otvaranjem kroz grafičku ploču okruženja koju koristimo ili pritiskom na alt + f2, upisujući njegovo ime u malim slovima i pritisnite Enter na kraju, a zatim stvorite dva direktorija (mape) unutar našeg korisničkog direktorija, imenujući jedan Applications_extras i drugi AntConc kao poddirektorij prvog:

Sada idemo u direktorij u koji je preuzeta datoteka antconc3.2.4u.tar.gz (u ovom primjeru je Preuzimanja), a datoteku otvaramo pomoću Xarchiver ili Fileroller da bismo raspakirali njen sadržaj u direktorij Antconc odabirom opcije ekstrakta u našem upravitelju datotekama i naznačujući stazu direktorija / home / user / Extra_Applications / AntConc:

Jednom kada je sadržaj paketa antconc3.2.4u.tar.gz izdvojen u direktorij AntConc unutar Applications_extras, identificiramo datoteku antconc3.2.4u kako bismo joj dali dozvole za izvršenje klikom desne tipke miša, unijeli svojstva i omogućili izvršavanje datoteka kao program:

A time bismo trebali moći otvoriti AntConc dvostrukim klikom miša na datoteku antconc3.2.4u.

Ako više volimo, sve prethodne postupke možemo izvršiti putem terminala izvršavanjem sljedećih naredbi i promjenom "korisnika" imenom koje koristimo u našoj sesiji:

Da biste kreirali direktorije:

$ mkdir / home / user / Applications_extras (pritisnite enter)
$ mkdir / home / user / Applications_extras / AntConc (pritisnite enter)

Promijenite u direktorij AntConc i izvucite sadržaj antconc3.2.4u.tar.gz:

$ cd / home / user / Applications_extras / AntConc / (pritisnite enter)
$ tar -xzvf /home/usuario/Descargas/antconc3.2.4u.tar.gz(press enter)

Omogućite pokretanje datoteke antconc3.2.4u kao programa:

$ chmod + x antconc3.2.4u (pritisnite enter)

I pokrenite AntConc:

$ /home/usuario/Aplicaciones_extras/AntConc/antconc3.2.4u(press enter)

Bez obzira na odabranu proceduru, ako želimo, možemo kopirati datoteku antconc3.2.4u u direktorij / usr / bin i dati joj potrebna odobrenja za pokretanje AntConc-a s terminala ili sa alt + f2 koji piše samo antconc3.2.4u. Za ovo izvršavamo sljedeće naredbe kao superuser sa su ili sudo:

$ your
(napišemo root lozinku i pritisnemo enter)
# cp /home/user/Extras_Applications/AntConc/antconc3.2.4u / usr / bin
# chmod a + rwx /usr/bin/antconc3.2.4u
# Izlaz

I sada, samo pokretanjem antconc3.2.4u s našim korisnikom iz bilo kojeg emulatora terminala, AntConc će se otvoriti kao što je prikazano na prethodnoj slici.

$antconc3.2.4u

Korištenje AntConca za popisivanje riječi prema određenom znaku

Utvrdivši kako preuzeti i pokrenuti AntConc, sada ćemo ustupiti put kako bismo prikazali njegovu upotrebu za lociranje nekih riječi pomoću pretraživanja po abecednom redu znakova i u malim i u velikim slovima. Ako želite dublje ući u rad AntConca i sve njegove mogućnosti upotrebe, možete pogledati dokument README_AntConc3.2.4.pdf u našem direktoriju / home / user / Aplicaciones_extras / AntConc ili ga preuzeti s http: //www.antlab .sci.waseda.ac.jp / software / antconc335 / AntConc_readme.pdf, kao i da se obratite internetskoj pomoći ili pogledate AntConc video vodiče dostupne na njenoj web stranici http://www.antlab.sci.waseda.ac. jp / antconc_index.html

AntConc može raditi samo s datotekama s običnim tekstom (".txt"), ".html", ".hml," .xml "i vlastitim formatom" .ant ", tako da sadržaj dokumenta od kojeg ćemo napraviti identifikacija riječi, promijenit ćemo je iz izvornog formata u ".odt", ".rtf", ".pdf" ili nekom drugom u ".txt" čineći odabir cjelokupnog sadržaja, kopirajući i lijepeći u novi tekstualni dokument avion koji pokreće naš omiljeni uređivač teksta (Leafpad, Gedit, Vim, Emacs, između ostalog). U ovom primjeru nastojat ćemo stvoriti tematski indeks iz knjige «Kolaborativna konstrukcija znanja» iz kojega možemo posjetiti njezinu web stranicu: http://seminario.edusol.info/seco3/, a koji možemo slobodno preuzeti s ove poveznice: http: / /seminario.edusol.info/seco3/pdf/seco3.pdf

Jednom kada se datoteka preuzme, pronalazimo je u našem direktoriju za preuzimanja, otvaramo je pomoću našeg pregledača dokumenata pdf (u ovom primjeru Evince), odabiremo sav njezin sadržaj pritiskom na ctrl + a, kopiramo ga i zalijepimo u novu ravnicu tekstualni dokument:

I novi dokument čuvamo u običnom tekstu s imenom "Construccion_colaborativa_del_conocimiento.txt" u direktorijum Dokumenti:

Sada izvršavamo AntConc i sa prve kartice u gornjem lijevom uglu pod nazivom "File" otvaramo datoteku "Construccion_colaborativa_del_conocimiento.txt":

U lijevom stupcu nazvanom "Korpusne datoteke" sada će se pojaviti ime naše tekstualne datoteke, što znači da ćemo raditi na ovoj datoteci, jer u AntConc možemo učitati više tekstualnih datoteka i raditi na njima zajedno ili odvojeno:

Sada ćemo napraviti popis svih riječi koje sadrže znak "A", kako bismo identificirali ključnu riječ s ovim velikim slovom, jer nam AntConc nudi mogućnost razlikovanja malih i velikih slova, što je vrlo korisno za prepoznavanje vlastitih imena ili skraćenice u obliku popisa. U tu svrhu stavljamo prvu karticu pod nazivom „Concordance“ na desnu stranu „Corpus Files“, uklanjamo kvačicu iz polja „Words“ da bismo označili polje „Case“, oboje na donjoj desnoj strani „Pojma za pretraživanje“, u polje upisujemo Pretražite ispod slova A i kliknite na ljubičasti pravokutnik na kojem stoji "Start":

I navest će rezultate sljedećeg. oblik:

Kao što vidimo, neki znakovi napisani s naglascima izgledaju slično riječi "Autónoma" umjesto "Autónoma". To je zato što AntConc-u moramo reći odgovarajući jezik kodiranja za naš jezik, jer AntConc ne otkriva da po defaultu koristimo španski. Za to otvaramo karticu "Globlal Settings" na vrhu pored "File", idemo na zadnju opciju "Language Encoding Settings" s desne strane kliknemo na "Edit" i odaberemo prvu opciju "Standard Encodings »Kliknemo na nju, odaberemo treću opciju s popisa koja se prikazuje desno" Unicode (utf8) "i kliknemo na okvir" Primjeni "u donjem desnom dijelu prozora:

Nakon primjene promjena, ponovno kliknite na ljubičasti pravokutnik «Start» i naglašeni znakovi će se sada pojaviti čitko:

Sada pregledavamo riječi s slovom označenim slovom A radi lakše prepoznavanja i na temelju naših razmatranja odabiremo one koje želimo uključiti u tematski indeks, na primjer "Računarska nepismenost" u redu broj 17 najčešća je riječ za koje se u našem tematskom indeksu navodi da se na njih prvi odnosi iz sadržaja teksta „Kolaborativna konstrukcija znanja“.

Vraćamo se u pdf dokument «Kolaborativna konstrukcija znanja» da bismo pronašli na kojim se stranicama pojavljuje «Računarska nepismenost» upisivanjem «ctrl + f», upisivanjem riječi «Nepismenost» u polje za pretraživanje i pritiskom na «enter» na kraju i brojem puta što je potrebno za pronalaženje pretraživane riječi na svim stranicama. Otvaramo novi dokument u LibreOffice Writeru kako bismo kreirali indeks predmeta ili ako radimo na sadržaju dokumenta koji je izvorno u .odt, otvorit ćemo taj dokument pomoću LibreOffice i kreiraćemo i urediti njegov indeks predmeta na bilo kojoj stranici:

Ako se također želimo identificirati s AntConcom u kojim se rečenicama "Računarska nepismenost" pojavljuje u čitavom sadržaju dokumenta "Construccion_colaborativa_del_conocimiento.txt", u polje za pretraživanje napišemo "Računalna nepismenost", uklonite kvačicu iz "Case", označite "Words" i kliknite na nju početi":

Ako kliknemo na bilo koji redak označen plavom bojom na „Računarska nepismenost“, na primjer u redu 4, na kartici „Prikaz datoteke“ prikazat će nam fragment teksta u kojem je ovaj izbor označen crnom bojom pozadina:

Na ovaj način, AntConc nam je vrlo koristan kada smo napisali knjigu, esej ili sažetak i nismo paralelno radili tematski indeks ili sistematski analizirali glavne ideje djela kako bismo olakšali njegovo čitanje.


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   RAW-Basic rekao je

    Vrlo zanimljiv alat .. ..Nisam znao za to .. i vrlo mi je koristan ..

    Hvala ti..

  2.   Cristianhcd rekao je

    vrlo dobar članak, zanimljiv

  3.   Stari covjek rekao je

    Puno vam hvala na podjeli

  4.   Kako instalirati Linux rekao je

    Veliki doprinos, vrlo koristan. Znanje da u Linuxu možete imati ovu vrstu alata uvijek je važno. Pozdrav.

  5.   Phytoschido rekao je

    Odličan ulaz. Sviđa mi se što objavljuju ovu vrstu sadržaja!

  6.   jathan rekao je

    Zdravo svima. Hvala na komentarima i izvinjenje što ste do sada mogli komentirati. Nadam se da oni koji su tutorstvo provodili u praksi nisu imali problema.