使用AntConc和LibreOffice進行定性文本分析和主題索引創建

問候朋友和朋友們,我非常高興能從現在起加入和參與<°From Linux。 我的名字叫賈森(Jathan),根據我在我的學院的計算機科學協調的社會服務中撰寫的文檔,我與您分享了第一個條目。 希望您覺得它有趣,有用,並發表各種評論。

當我們要在文本文件中查找用於創建主題索引的關鍵字,分析作品的主要思想或其他類似目的時,我們需要進行搜索,以區分單詞中的大寫和小寫字符,以及突出顯示所需字符(例如字母)的列表,以便我們可以更快,更實用的方式找到關鍵字。

本文檔的目的是介紹和解釋定性文本分析應用程序和文本編輯器的使用,以利於使用Free Software實現主題索引。

第一部分將說明安裝過程 LibreOffice的 和執行 螞蟻康 在操作系統內 GNU / Linux的 以及以後如何在Windows和Mac OS系統中進行操作,而在以下各部分中,無論使用哪種操作系統,都將說明如何使用 螞蟻康 y LibreOffice的 使用示例創建主題索引。

GNU / Linux上的LibreOffice和AntConc

我們需要做的第一件事是驗證我們在GNU / Linux發行版上是否安裝了LibreOffice。 LibreOffice是獲得GPL許可的免費的多平台辦公套件,可幫助我們以簡單有效的方式編輯文本文檔,幻燈片,電子表格,數據庫,圖形和數學公式。

如果我們正在使用 Debian,LinuxMint,Trisquel,Ubuntu 或其他基於 Debian的,我們將不再需要處理其安裝,因為在大多數這些發行版中,包括其最新版本以及Mageia,Fedora和OpenSUSE等其他版本中,LibreOffice已經預先安裝,您只需在應用程序面板中找到並運行它即可或通過命令行。

如果我們使用Debian Squeeze 6.0,則必須按照以下說明將OpenOffice更新為LibreOffice:http://www.dobleseis.com.ar/instalar-libreoffice-3-en-debian-squeeze。

確保我們已在系統上安裝LibreOffice之後,我們現在將繼續訪問AntLab網站,在該網站上可以找到由Laurence Anthony開發的一些有用的應用程序,用於定性文本分析和與GNU / Linux,Mac跨平台可執行文件的單詞匹配操作系統和Windows。

AntConc是一種用Perl編程語言編寫的應用程序,它使我們能夠以字母順序或出現頻率,關鍵字,單詞的一致性和一致性以純文本格式列出文件中的單詞,以區分小寫和大寫字符。 要下載它,請轉到以下鏈接:http://www.antlab.sci.waseda.ac.jp/antconc_index.html並在第五列中選擇Tux企鵝出現的選項來下載AntConc 3.2.4u:

選定文件的下載完成後,我們通過在使用的圖形環境面板中打開首選文件瀏覽器(Pcmanfm,Nautilus,Thunar,Dolphin或任何其他文件),或按alt + f2,將其名稱寫成小寫,然後按Enter最後,然後在我們的用戶目錄中創建兩個目錄(文件夾),將一個Applications_extras和另一個AntConc命名為第一個目錄的子目錄:

現在,我們轉到antconc3.2.4u.tar.gz文件的下載目錄(在本示例中為Downloads),然後使用Xarchiver或Fileroller打開文件,以通過在文件管理器中選擇extract選項將其內容解壓縮到Antconc目錄中。指示目錄路徑/ home / user / Extra_Applications / AntConc:

將antconc3.2.4u.tar.gz軟件包的內容提取到Applications_extras內的AntConc目錄後,我們將確定antconc3.2.4u文件,以通過單擊鼠標右鍵,輸入屬性並允許執行文件作為程序:

這樣,我們應該能夠通過在antconc3.2.4u文件上雙擊鼠標來打開AntConc。

如果願意,我們可以通過執行以下命令並通過在會話中使用的名稱來更改“用戶”,來通過終端執行所有先前的過程:

要創建目錄:

$ mkdir /家庭/用戶/ Applications_extras(按Enter)
$ mkdir /主頁/用戶/ Applications_extras / AntConc(按Enter)

轉到AntConc目錄,並提取antconc3.2.4u.tar.gz的內容:

$ cd /主頁/用戶/ Applications_extras / AntConc /(按Enter)
$ tar -xzvf /home/usuario/Descargas/antconc3.2.4u.tar.gz(按Enter)

允許將antconc3.2.4u文件作為程序運行:

$ chmod + x antconc3.2.4u(按Enter)

並運行AntConc:

$ /home/usuario/Aplicaciones_extras/AntConc/antconc3.2.4u(按Enter)

無論我們選擇哪種程序,如果願意,我們都可以將antconc3.2.4u文件複製到/ usr / bin目錄,並通過編寫antconc2u給予它必要的權限,使其能夠從終端或使用alt + f3.2.4來運行AntConc。 為此,我們以超級用戶身份使用su或sudo執行以下命令:

$蘇
(我們輸入root密碼,然後按Enter鍵)
#cp /home/user/Extras_Applications/AntConc/antconc3.2.4u / usr / bin
#chmod a + rwx /usr/bin/antconc3.2.4u
# 出口

現在,只需通過我們的用戶從任何終端仿真器上運行antconc3.2.4u,AntConc就會如上圖所示打開。

$ antconc3.2.4u

使用AntConc按特定字符列出單詞

確定瞭如何下載和運行AntConc之後,現在我們將通過在小寫字母和大寫字母中按字母順序搜索字符來舉例說明其用於定位某些單詞的方法。 如果您想更深入地了解AntConc的操作及其所有使用可能性,可以在目錄/ home / user / Aplicaciones_extras / AntConc中查閱文檔README_AntConc3.2.4.pdf或從http://www.antlab下載.sci.waseda.ac.jp / software / antconc335 / AntConc_readme.pdf,以及查閱在線幫助或觀看其網站http://www.antlab.sci.waseda.ac.jp/上的AntConc視頻教程。 antconc_index.html

AntConc只能使用純文本文件(“ .txt”),“。html”,“。hml”,“。xml”和其自身的格式“ .ant”,因此我們將根據該文件的內容單詞識別,我們會將其從“ .odt”,“。rtf”,“。pdf”或其他格式的原始格式更改為“ .txt”,以選擇所有內容,然後將其複制並粘貼到新運行我們首選的文本編輯器(Leafpad,Gedit,Vim,Emacs等)的文本文檔平面。 在本示例中,我們將嘗試根據《知識的協作構建》一書創建一個主題索引,從中可以訪問其網站:http://seminario.edusol.info/seco3/,並且可以從以下鏈接免費下載: http:/ /seminario.edusol.info/seco3/pdf/seco3.pdf

下載文件後,我們將其定位在我們的下載目錄中,並使用pdf文檔查看器(在本示例中為Evince)將其打開,通過按ctrl + a選擇所有內容,然後將其複制並粘貼到新的純文本文檔中:

然後,將新文檔以純文本格式保存在Documents目錄中,名稱為«Construccion_colaborativa_del_conocimiento.txt»:

現在我們執行AntConc,並從左上角的第一個選項卡“ File”打開文件“ Construccion_colaborativa_del_conocimiento.txt”:

現在,在稱為“ Corpus文件”的左列中,將顯示我們的文本文件的名稱,表明我們將在處理此文件,因為在AntConc中,我們可以加載多個文本文件,然後一起或單獨處理它們:

現在我們要做的是列出所有包含字符“ A”的單詞,以使用大寫字母標識關鍵字,因為AntConc為我們提供了區分小寫和大寫字母的可能性,這對於標識專有名稱或首字母縮寫詞非常有用以列表形式。 為此,我們將第一個名為“ Concordance”的選項卡放置在“ Corpus Files”的右側,取消選中“ Words”框以標記“ Case”框,兩者都位於“ Search Term”的右下角,在字母A下方搜索字段,然後單擊顯示“開始”的紫色矩形:

它將列出以下結果。 形狀:

如我們所見,有些帶有重音符號的字符看起來與單詞“Autónoma”相似,而不是“Autónoma”。 這是因為我們必須告訴AntConc適用於我們的語言的編碼語言,因為默認情況下AntConc不會檢測到我們正在使用西班牙語。 為此,我們打開“文件”旁邊頂部頂部的“全局設置”選項卡,然後轉到右側的最後一個選項“語言編碼設置”,單擊“編輯”,然後選擇第一個選項“標準編碼” »我們單擊它,從顯示在右側“ Unicode(utf8)”的列表中選擇第三個選項,然後單擊窗口右下方的“應用”框:

應用更改後,再次單擊“開始”的紫色矩形,然後將清晰顯示帶重音的字符:

現在,我們正在審查帶有藍色突出顯示的字母A的單詞,以便於識別,並根據我們的考慮,我們選擇要包含在主題索引中的單詞,例如,第17行中的“計算機文盲”是最常見的單詞即時發現是“知識的協作構建”文本內容中第一個在我們的主題索引中被提及。

我們返回pdf文檔“知識的協作構建”,以查找“計算機文盲”出現在哪些頁面,方法是鍵入“ ctrl + f”,在搜索字段中寫上“文盲”一詞,並在末尾按“輸入”,然後輸入次數在所有頁面上查找搜索到的單詞所必需的。 我們會在LibreOffice Writer中打開一個新文檔來創建主題索引,或者如果我們正在處理原始於.odt中的文檔的內容,那麼我們將使用LibreOffice打開該文檔,並且我們只會在任何頁面上創建和編輯其主題索引:

如果我們還想與AntConc一起在文檔“ Construccion_colaborativa_del_conocimiento.txt”的所有內容中都出現“計算機文盲”一詞,請在搜索字段中輸入“計算機文盲”,取消選中“案例”,標記“單詞”,然後單擊它開始”:

如果我們單擊以藍色突出顯示為“計算機文盲”的任何行,例如在第4行的“文件視圖”選項卡中,它將向我們顯示該選擇項以黑色突出顯示的文本片段背景:

這樣,當我們寫書,論文或摘要並且我們沒有同時做主題索引或沒有系統地分析作品的主要思想以利於閱讀時,AntConc對我們非常有用。


本文內容遵循我們的原則 編輯倫理。 要報告錯誤,請單擊 這裡.

6條評論,留下您的評論

發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。

  1.   RAW基本 他說:

    非常有趣的工具.. ..我不知道..它對我很有用..

    謝謝

  2.   克里斯蒂安 他說:

    很好的文章,有趣

  3.   老人 他說:

    非常感謝您的分享

  4.   如何安裝Linux 他說:

    貢獻很大,很有用。 知道可以在Linux中擁有這些類型的工具總會有所作為。 問候。

  5.   植物假單胞菌 他說:

    優秀的入門。 我喜歡他們發布這類內容!

  6.   詹森 他說:

    大家好。 感謝您的評論,並為能發表評論表示歉意。 我希望那些將補習付諸實踐的人沒有任何問題。