AntConc ve LibreOffice ile nitel metin analizi ve konu dizinlerinin oluşturulması

Selamlar arkadaşlar, artık <°'de elimden gelen her şeye katılmaktan ve katılmaktan çok mutluyum. Desde Linux. Adım Jathan ve fakültemin bilgi işlem koordinasyonunun sosyal hizmetinde yaptığım belgelere dayanarak bu ilk girişi sizlerle paylaşıyorum. Umarım ilginizi çeker, faydalı bulursunuz ve her türlü yorumu yaparsınız.

Bir metin dosyasında tematik bir dizin oluşturmak için anahtar kelimeler bulmak istediğimizde, bir çalışmanın ana fikirlerini veya benzer başka bir amacı analiz etmek istediğimizde, kelimeler içindeki büyük ve küçük harfleri ayırt edebileceğimiz aramalar yapmamız gerekir, anahtar kelimeleri daha hızlı ve pratik bir şekilde bulabilmemiz için harf gibi istenen karakterleri vurgulayan bunların bir listesi.

Mevcut dokümantasyon, Özgür Yazılım ile tematik bir indeks oluşturmayı kolaylaştırmak için nitel bir metin analizi uygulamasının ve bir metin düzenleyicinin kullanımını sunmayı ve açıklamayı amaçlamaktadır.

İlk bölümde, kurulum prosedürü LibreOffice ve infaz AntConc işletim sistemi içinde GNU / Linux ve daha sonra Windows ve Mac OS sistemlerinde nasıl yapılacağı, işletim sistemi ne olursa olsun aşağıdaki bölümlerde nasıl kullanılacağı anlatılacaktır. AntConc y LibreOffice Konu dizini oluşturmak için örnekler kullanmak.

GNU / Linux üzerinde LibreOffice ve AntConc

Yapmamız gereken ilk şey, GNU / Linux dağıtımımızda LibreOffice'in kurulu olduğunu doğrulamaktır. LibreOffice, GPL lisanslı ücretsiz bir çok platformlu ofis paketidir ve metin belgelerini, slaytları, elektronik tabloları, veritabanlarını, çizimleri ve matematiksel formülleri basit ve verimli bir şekilde düzenlememize yardımcı olur.

Eğer kullanıyorsak Debian, Linux Mint, Trisquel, Ubuntu veya dayalı başka herhangi bir dağıtım Debian, Bu dağıtımların çoğunda en son sürümlerinin yanı sıra Mageia, Fedora ve OpenSUSE gibi diğer sürümlerde LibreOffice zaten önceden yüklendiği ve sadece onu bulup çalıştırmanız gerektiği için artık kurulumuyla uğraşmak zorunda kalmayacağız. uygulamalar panelinden veya komut satırından.

Debian Squeeze 6.0 kullanıyorsak, şu talimatları izleyerek OpenOffice'i LibreOffice'e güncellemeliyiz: http://www.dobleseis.com.ar/instalar-libreoffice-3-en-debian-squeeze.

Sistemimizde LibreOffice'in kurulu olduğundan emin olduktan sonra, şimdi, GNU / Linux için çapraz platform çalıştırılabilir dosyalar ile nitel metin analizi ve kelime eşleştirme için Laurence Anthony tarafından geliştirilen bazı yararlı uygulamaları bulabileceğimiz AntLab web sitesini ziyaret edeceğiz. Mac OS ve Windows.

AntConc, kelimeleri alfabetik sırayla veya görünüm sıklığına göre listelememize, anahtar kelimelere, bir dosyadan düz metin biçiminde eşlemeler ve kelime grupları oluşturmamıza, küçük harf ve büyük harf karakterlerini ayırt etmemize olanak tanıyan Perl programlama dilinde yazılmış bir uygulamadır. İndirmek için şu bağlantıya gidin: http: //www.antlab.sci.waseda.ac.jp/antconc_index.html ve beşinci sütunda Tux pengueninin AntConc 3.2.4u'yu indirme seçeneğini görüntülediği yeri seçin:

Seçili dosyanın indirilmesi bittiğinde tercih ettiğimiz dosya tarayıcımızı (Pcmanfm, Nautilus, Thunar, Dolphin veya herhangi bir başka) kullandığımız grafik ortam panelinden açarak veya alt + f2 tuşlarına basarak adını yazarak açıyoruz. küçük harf ve sonunda enter tuşuna basmak ve ardından kullanıcı dizinimizde iki dizin (klasörler) oluşturun, bir Applications_extras ve diğer AntConc'u ilkinin alt dizini olarak adlandırın:

Şimdi antconc3.2.4u.tar.gz dosyasının indirildiği dizine gidiyoruz (bu örnekte İndirilenler'de) ve dosyayı Xarchiver veya Fileroller ile açarak içeriğini Antconc dizinine açmak için buradan ayıklama seçeneğini seçiyoruz. dosya yöneticisi ve / home / user / Extra_Applications / AntConc dizin yolunu gösteren:

Antconc3.2.4u.tar.gz paketinin içeriği Applications_extras içindeki AntConc dizinine çıkarıldıktan sonra, antconc3.2.4u dosyasını sağ fare düğmesine tıklayarak yürütme izinleri vermek, özellikleri girmek ve yürütmeye izin vermek için tanımlarız. dosyanın bir program olarak:

Ve bununla, antconc3.2.4u dosyası üzerinde mouse ile çift tıklayarak AntConc'u açabilmeliyiz.

Tercih edersek, aşağıdaki komutları çalıştırarak ve oturumumuzda kullandığımız adla "kullanıcı" yı değiştirerek önceki tüm prosedürü terminal üzerinden yapabiliriz:

Dizinleri oluşturmak için:

$ mkdir / home / user / Applications_extras (enter tuşuna basın)
$ mkdir / home / user / Applications_extras / AntConc (enter tuşuna basın)

AntConc dizinine geçin ve antconc3.2.4u.tar.gz'nin içeriğini çıkarın:

$ cd / home / user / Applications_extras / AntConc / (enter tuşuna basın)
$ tar -xzvf /home/usuario/Descargas/antconc3.2.4u.tar.gz (enter tuşuna basın)

Antconc3.2.4u dosyasını bir program olarak çalıştırmaya izin verin:

$ chmod + x antconc3.2.4u (enter tuşuna basın)

Ve AntConc'u çalıştırın:

$ /home/usuario/Aplicaciones_extras/AntConc/antconc3.2.4u( enter tuşuna basın)

Seçtiğimiz prosedür ne olursa olsun, dilersek, antconc3.2.4u dosyasını / usr / bin dizinine kopyalayabilir ve AntConc'u terminalden veya alt + f2 ile çalıştırabilmek için sadece yazarak gerekli izinleri verebiliriz. antconc3.2.4u. Bunun için süper kullanıcı olarak aşağıdaki komutları su veya sudo ile çalıştırıyoruz:

$ su
(root şifremizi yazıyoruz ve enter tuşuna basıyoruz)
# cp /home/user/Extras_Applications/AntConc/antconc3.2.4u / usr / bin
# chmod a + rwx /usr/bin/antconc3.2.4u
# çıkış

Ve şimdi, sadece herhangi bir terminal emülatöründen kullanıcımızla antconc3.2.4u çalıştırarak, AntConc önceki görüntüde gösterildiği gibi açılacaktır.

$ anconc3.2.4u

Kelimeleri belirli bir karaktere göre listelemek için AntConc kullanma

AntConc'un nasıl indirileceğini ve çalıştırılacağını önceden belirledikten sonra, şimdi hem küçük hem de büyük harfli alfabetik karakter sırasına göre arama yaparak bazı kelimeleri bulmak için kullanımını örneklendirmeye yol açacağız. AntConc'un işleyişine ve tüm kullanım olanaklarına daha derine inmek isterseniz / home / user / Aplicaciones_extras / AntConc dizinimizdeki README_AntConc3.2.4.pdf belgesine başvurabilir veya http: //www.antlab adresinden indirebilirsiniz .sci.waseda.ac.jp / software / antconc335 / AntConc_readme.pdf, ayrıca çevrimiçi yardıma başvurun veya http://www.antlab.sci.waseda.ac. jp / web sitesinde bulunan AntConc video eğitimlerini izleyin. antconc_index.html

AntConc yalnızca düz metin dosyalarıyla (".txt"), ".html", ".hml," ".xml" ve kendi biçimi ".ant" ile çalışabilir, bu nedenle, içinden yapacağımız belgenin içeriği kelime tanımlama, ".odt", ".rtf", ".pdf" veya başka bir biçimdeki orijinal biçiminden ".txt" olarak değiştireceğiz, tüm içeriğin bir seçimini yapıp, kopyalayıp yenisine yapıştıracağız. tercih ettiğimiz metin düzenleyicimizi çalıştıran metin belge düzlemi (Leafpad, Gedit, Vim, Emacs ve diğerleri). Bu örnekte, http://seminario.edusol.info/seco3/ web sitesini ziyaret edebileceğimiz ve bu bağlantıdan ücretsiz olarak indirebileceğimiz «İşbirlikçi Bilgi İnşası» kitabından tematik bir dizin oluşturmaya çalışacağız: http: / /seminario.edusol.info/seco3/pdf/seco3.pdf

Dosya indirildikten sonra indirilenler dizinimizde buluruz, pdf belge görüntüleyicimiz ile açarız (bu örnekte Evince), tüm içeriğini ctrl + a tuşlarına basarak seçeriz, kopyalayıp yeni bir düzeye yapıştırırız metin belgesi:

Ve yeni belgemizi Belgeler dizinine «Construccion_colaborativa_del_conocimiento.txt» adıyla düz metin olarak kaydediyoruz:

Şimdi AntConc'u çalıştırıyoruz ve sol üstteki "Dosya" adlı ilk sekmeden "Construccion_colaborativa_del_knowledge.txt" dosyasını açıyoruz:

"Corpus Dosyaları" adlı sol sütunda artık metin dosyamızın adı görünecek ve bu dosya üzerinde çalışacağımızı belirtecek, çünkü AntConc'ta birden fazla metin dosyası yükleyebilir ve bunlar üzerinde birlikte veya ayrı olarak çalışabiliriz:

Şimdi yapacağımız şey, bu büyük harfle bir anahtar kelimeyi tanımlamak için "A" karakterini içeren tüm kelimeleri listelemek, çünkü AntConc bize küçük ve büyük harfleri ayırt etme imkanı sunuyor, bu da özel isimleri veya kısaltmaları tanımlamak için çok kullanışlıdır. liste şeklinde. Bunun için, «Derlem Dosyaları» nın sağ tarafına «Uyum» adlı ilk sekmeyi yerleştiriyoruz, «Durum» kutusunu işaretlemek için «Kelimeler» kutusunun işaretini kaldırıyoruz, her ikisi de «Arama Terimi» nin sağ alt tarafında, yazıyoruz alanı A harfinin altında arayın ve "Başlat" yazan mor dikdörtgeni tıklayın:

Ve aşağıdakilerin sonuçlarını listeleyecektir. şekil:

Gördüğümüz gibi, aksanlarla yazılmış bazı karakterler "Autónoma" yerine "Autónoma" kelimesine benziyor. Bunun nedeni, AntConc'a dilimiz için doğru kodlama dilini söylememiz gerektiğidir, çünkü AntConc varsayılan olarak İspanyolca kullandığımızı algılamaz. Bunun için, "Dosya" nın yanındaki en üstteki "Küresel Ayarlar" sekmesini açıyoruz, sağ taraftaki son seçenek olan "Dil Kodlama Ayarları" na gidiyoruz, "Düzenle" ye tıklıyoruz ilk seçeneği seçiyoruz "Standart Kodlamalar" üzerine tıklayın, sağdaki "Unicode (utf8)" de görüntülenen listeden üçüncü seçeneği seçin ve pencerenin sağ alt kısmındaki "Uygula" kutusuna tıklıyoruz:

Değişiklikleri uyguladıktan sonra tekrar mor "Başlat" dikdörtgeni üzerine tıklayın ve aksanlı karakterler artık okunaklı bir şekilde görünecektir:

Şimdi, kolay tanımlama için mavi vurgulanmış A harfi olan kelimeleri gözden geçiriyoruz ve düşüncelerimize dayanarak, tematik dizine dahil etmek istediklerimizi seçiyoruz, örneğin, 17 numaralı satırdaki "Bilgisayar cehaleti" en yaygın olanıdır. "Bilginin işbirliğine dayalı inşası" metninin içeriğinden, tematik dizinimizde ilk atıfta bulunulan "an" kelimesidir.

«Ctrl + f» yazıp, arama alanına «Cehalet» kelimesini yazarak ve sonunda «enter» tuşuna basarak «Bilgisayarda cehalet» hangi sayfalarda göründüğünü bulmak için «Bilginin işbirliğine dayalı inşası» pdf belgesine geri dönüyoruz. tüm sayfalarda aranan kelimeyi bulmak için gerekli olan sayı. Konu dizinimizi oluşturmak için LibreOffice Writer'da yeni bir belge açıyoruz veya orijinal olarak .odt biçiminde olan bir belgenin içeriği üzerinde çalışıyorsak, bu belgeyi LibreOffice ile açıyoruz ve yalnızca konu dizinini herhangi bir sayfada oluşturup düzenleyeceğiz :

Ayrıca, "Construccion_colaborativa_del_conocimiento.txt" belgesinin tüm içeriğinde "Bilgisayar cehaletinin" hangi cümlelerin göründüğünü AntConc ile özdeşleştirmek istiyorsak, arama alanına "Bilgisayar cehalet" yazarız, "Durum" un işaretini kaldırır, "Kelimeler" i işaretleriz ve "Başlat" için tıklayın:

Mavi renkle «Bilgisayar okuryazarlığı» olarak vurgulanan satırlardan herhangi birine tıklarsak, örneğin 4. satırda, «Dosya Görünümü» sekmesinde, bize bu seçimin arka plandan siyahla vurgulanmış olarak göründüğü metnin bölümünü gösterecektir:

Bu bakımdan AntConc, bir kitap, makale veya özet yazdığımızda ve bir eserin ana fikirlerini okumasını kolaylaştırmak için paralel olarak veya sistematik olarak analiz etmek için tematik bir indeks yapmadığımızda bizim için çok yararlıdır.


Yorumunuzu bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmiştir *

*

*

  1. Verilerden sorumlu: Miguel Ángel Gatón
  2. Verilerin amacı: Kontrol SPAM, yorum yönetimi.
  3. Meşruiyet: Onayınız
  4. Verilerin iletilmesi: Veriler, yasal zorunluluk dışında üçüncü kişilere iletilmeyecektir.
  5. Veri depolama: Occentus Networks (AB) tarafından barındırılan veritabanı
  6. Haklar: Bilgilerinizi istediğiniz zaman sınırlayabilir, kurtarabilir ve silebilirsiniz.

  1.   RAW-Temel dijo

    Çok ilginç bir araç .. .. Bunu bilmiyordum .. ve benim için çok faydalı ..

    Teşekkür ederim..

  2.   Cristianhcd dijo

    çok güzel makale, ilginç

  3.   Yaşlı adam dijo

    Paylaştığın için çok teşekkür ederim

  4.   Linux Nasıl Kurulur dijo

    Büyük katkı, çok faydalı. Linux'ta bu tür araçlara sahip olabileceğinizi bilmek her zaman bir fark yaratır. Saygılarımızla.

  5.   fitoşido dijo

    Mükemmel giriş. Bu tür içerikleri yayınlamalarını seviyorum!

  6.   canan dijo

    Herkese merhaba. Yorumlarınız için teşekkürler ve şu ana kadar yorum yapabildiğiniz için özür dileriz. Umarım dersi uygulayanların herhangi bir sorunu olmamıştır.