Phân tích văn bản định tính và tạo chỉ mục chủ đề với AntConc và LibreOffice

Xin chào các bạn và các bạn, tôi rất vui khi được tham gia và tham gia vào những gì trong tầm tay của tôi kể từ bây giờ trong <° Từ Linux. Tên tôi là jathan và tôi chia sẻ mục nhập đầu tiên này với bạn dựa trên một tài liệu mà tôi đã thực hiện trong dịch vụ xã hội về điều phối khoa học máy tính của khoa tôi. Tôi hy vọng bạn thấy nó thú vị, hữu ích và đưa ra các loại nhận xét.

Khi trong một tệp văn bản, chúng ta muốn tìm các từ khóa để tạo chỉ mục chuyên đề, phân tích ý chính của tác phẩm hoặc một số mục đích tương tự khác, chúng ta cần thực hiện các tìm kiếm để có thể phân biệt giữa các ký tự viết hoa và viết thường trong các từ, cũng như danh sách các ký tự này làm nổi bật các ký tự mong muốn chẳng hạn như một chữ cái để chúng tôi có thể tìm từ khóa một cách nhanh hơn và thiết thực hơn.

Tài liệu này nhằm trình bày và giải thích việc sử dụng ứng dụng phân tích văn bản định tính và trình soạn thảo văn bản để tạo điều kiện thực hiện một chỉ mục chuyên đề bằng Phần mềm Miễn phí.

Phần đầu tiên sẽ giải thích thủ tục cài đặt LibreOffice và việc thực hiện AntConc trong hệ điều hành GNU / Linux và sau đó là cách thực hiện điều đó trong hệ thống Windows và Mac OS, trong khi trong các phần sau bất kể hệ điều hành, nó sẽ được giải thích cách sử dụng AntConc y LibreOffice Sử dụng các ví dụ để tạo chỉ mục chủ đề.

LibreOffice và AntConc trên GNU / Linux

Điều đầu tiên chúng ta cần làm là xác minh rằng chúng ta đã cài đặt LibreOffice trên bản phân phối GNU / Linux của mình. LibreOffice là một bộ ứng dụng văn phòng đa nền tảng miễn phí được cấp phép GPL và giúp chúng tôi chỉnh sửa tài liệu văn bản, trang trình bày, bảng tính, cơ sở dữ liệu, bản vẽ và công thức toán học một cách đơn giản và hiệu quả.

Nếu chúng tôi đang sử dụng Debian, LinuxMint, Trisquel, Ubuntu hoặc bất kỳ phân phối nào khác dựa trên Debian, Chúng tôi sẽ không còn phải đối phó với việc cài đặt nó vì trong hầu hết các bản phân phối này trong các phiên bản mới nhất của chúng cũng như các phiên bản khác như Mageia, Fedora và OpenSUSE, LibreOffice đã được cài đặt sẵn và bạn chỉ cần tìm và chạy nó từ bảng ứng dụng hoặc bằng dòng lệnh.

Nếu chúng tôi đang sử dụng Debian Squeeze 6.0, chúng tôi phải cập nhật OpenOffice lên LibreOffice theo các hướng dẫn sau: http://www.dobleseis.com.ar/instalar-libreoffice-3-en-debian-squeeze.

Sau khi đảm bảo rằng chúng tôi đã cài đặt LibreOffice trên hệ thống của mình, bây giờ chúng tôi sẽ chuyển sang truy cập trang web AntLab, nơi chúng tôi có thể tìm thấy một số ứng dụng hữu ích do Laurence Anthony phát triển để phân tích văn bản định tính và đối sánh từ với các tệp thực thi đa nền tảng cho GNU / Linux, Mac OS và Windows.

AntConc là ứng dụng được viết bằng ngôn ngữ lập trình Perl, giúp chúng ta liệt kê các từ theo thứ tự bảng chữ cái hoặc theo tần suất xuất hiện, từ khóa, tạo các đối sánh và nhóm từ từ một tập tin ở định dạng văn bản thuần túy, phân biệt giữa ký tự viết thường và viết hoa. Để tải xuống, hãy truy cập liên kết sau: http: //www.antlab.sci.waseda.ac.jp/antconc_index.html và chọn trong cột thứ năm nơi chú chim cánh cụt Tux xuất hiện tùy chọn tải xuống AntConc 3.2.4u:

Khi quá trình tải xuống tệp đã chọn hoàn tất, chúng tôi mở trình duyệt tệp ưa thích của mình (Pcmanfm, Nautilus, Thunar, Dolphin hoặc bất kỳ tệp nào khác) bằng cách mở tệp qua bảng điều khiển môi trường đồ họa mà chúng tôi sử dụng hoặc bằng cách nhấn alt + f2, viết tên của tệp đó vào chữ thường và nhấn enter ở cuối và sau đó tạo hai thư mục (thư mục) trong thư mục người dùng của chúng tôi, đặt tên một Applications_extras và một AntConc khác làm thư mục con của thư mục đầu tiên:

Bây giờ chúng tôi đi đến thư mục nơi tệp antconc3.2.4u.tar.gz đã được tải xuống (trong ví dụ này là Tải xuống) và chúng tôi mở tệp bằng Xarchiver hoặc Fileroller để giải nén nội dung của nó vào thư mục Antconc bằng cách chọn tùy chọn giải nén trong trình quản lý tệp của chúng tôi và chỉ ra đường dẫn thư mục / home / user / Extra_Application / AntConc:

Khi nội dung của gói antconc3.2.4u.tar.gz đã được trích xuất vào thư mục AntConc trong Applications_extras, chúng tôi xác định tệp antconc3.2.4u để cấp cho nó quyền thực thi bằng cách nhấp vào nút chuột phải, nhập thuộc tính và cho phép thực thi tệp dưới dạng chương trình:

Và với điều này, chúng ta sẽ có thể mở AntConc bằng cách nhấp đúp chuột vào tệp antconc3.2.4u.

Nếu muốn, chúng ta có thể thực hiện tất cả quy trình trước đó thông qua thiết bị đầu cuối bằng cách thực hiện các lệnh sau và thay đổi "người dùng" bằng tên mà chúng ta sử dụng trong phiên của mình:

Để tạo các thư mục:

$ mkdir / home / user / Applications_extras (nhấn enter)
$ mkdir / home / user / Applications_extras / AntConc (nhấn enter)

Thay đổi thư mục AntConc và trích xuất nội dung của antconc3.2.4u.tar.gz:

$ cd / home / user / Applications_extras / AntConc / (nhấn enter)
$ tar -xzvf /home/usuario/Descargas/antconc3.2.4u.tar.gz (nhấn enter)

Cho phép chạy tệp antconc3.2.4u dưới dạng chương trình:

$ chmod + x antconc3.2.4u (nhấn enter)

Và chạy AntConc:

$ /home/usuario/Aplicaciones_extras/AntConc/antconc3.2.4u (nhấn enter)

Bất kể quy trình chúng tôi chọn là gì, nếu muốn, chúng tôi có thể sao chép tệp antconc3.2.4u vào thư mục / usr / bin và cấp cho nó các quyền cần thiết để có thể chạy AntConc từ thiết bị đầu cuối hoặc với alt + f2 chỉ viết antconc3.2.4u. Đối với điều này, chúng tôi thực hiện các lệnh sau dưới dạng superuser với su hoặc sudo:

$ của bạn
(chúng tôi viết mật khẩu gốc của mình và nhấn enter)
# cp /home/user/Extras_Appilities/AntConc/antconc3.2.4u / usr / bin
# chmod a + rwx /usr/bin/antconc3.2.4u
# lối ra

Và bây giờ, chỉ bằng cách chạy antconc3.2.4u với người dùng của chúng tôi từ bất kỳ trình giả lập đầu cuối nào, AntConc sẽ mở ra như trong hình trước.

$ antconc3.2.4u

Sử dụng AntConc để liệt kê các từ theo một ký tự cụ thể

Sau khi đã xác định cách tải xuống và chạy AntConc, bây giờ chúng ta sẽ đưa ra cách minh họa việc sử dụng nó để định vị một số từ bằng cách tìm kiếm theo thứ tự bảng chữ cái của các ký tự ở cả chữ thường và chữ hoa. Nếu bạn muốn đi sâu hơn vào hoạt động của AntConc và tất cả các khả năng sử dụng của nó, bạn có thể tham khảo tài liệu README_AntConc3.2.4.pdf trong thư mục / home / user / Aplicaciones_extras / AntConc của chúng tôi hoặc tải xuống từ http: //www.antlab .sci.waseda.ac.jp / software / antconc335 / AntConc_readme.pdf, cũng như tham khảo trợ giúp trực tuyến hoặc xem video hướng dẫn AntConc có sẵn trên trang web http://www.antlab.sci.waseda.ac. jp / antconc_index.html

AntConc chỉ có thể hoạt động với các tệp văn bản thuần túy (".txt"), ".html", ".hml," ".xml" và định dạng riêng của nó ".ant", vì vậy nội dung của tài liệu mà chúng tôi sẽ tạo nhận dạng từ, chúng tôi sẽ thay đổi nó từ định dạng ban đầu của nó trong ".odt", ".rtf", ".pdf" hoặc một số khác thành ".txt" thực hiện lựa chọn tất cả nội dung, sao chép và dán nó vào một tài liệu văn bản mới máy bay chạy trình soạn thảo văn bản ưa thích của chúng tôi (Leafpad, Gedit, Vim, Emacs, v.v.). Trong ví dụ này, chúng tôi sẽ tìm cách tạo một chỉ mục chuyên đề từ cuốn sách «Hợp tác xây dựng kiến ​​thức» mà từ đó chúng tôi có thể truy cập trang web của nó: http://seminario.edusol.info/seco3/ và chúng tôi có thể tải về miễn phí từ liên kết này: http: / /seminario.edusol.info/seco3/pdf/seco3.pdf

Sau khi tệp được tải xuống, chúng tôi định vị tệp trong thư mục tải xuống của mình, chúng tôi mở tệp bằng trình xem tài liệu pdf của chúng tôi (trong ví dụ này là Evince), chúng tôi chọn tất cả nội dung của tệp bằng cách nhấn ctrl + a, chúng tôi sao chép và dán nó vào một đồng bằng mới tài liệu văn bản:

Và chúng tôi lưu tài liệu mới của mình ở dạng văn bản thuần túy với tên "Construccion_colaborativa_del_conocimiento.txt" trong thư mục Documents:

Bây giờ chúng tôi thực thi AntConc và từ tab đầu tiên ở phía trên bên trái có tên "Tệp", chúng tôi mở tệp "Construccion_colaborativa_del_conocimiento.txt":

Trong cột bên trái được gọi là "Corpus Files", tên của tệp văn bản của chúng tôi bây giờ sẽ xuất hiện, cho biết rằng chúng tôi sẽ làm việc trên tệp này, vì trong AntConc, chúng tôi có thể tải nhiều hơn một tệp văn bản và làm việc trên chúng cùng nhau hoặc riêng biệt:

Bây giờ những gì chúng ta sẽ làm là liệt kê tất cả các từ có chứa ký tự "A", để xác định một từ khóa có chữ cái viết hoa này, vì AntConc cung cấp cho chúng ta khả năng phân biệt chữ thường và chữ hoa, điều này rất hữu ích để xác định tên riêng. hoặc các từ viết tắt ở dạng danh sách. Đối với điều này, chúng tôi đặt tab đầu tiên có tên «Concordance» ở phía bên phải của «Corpus Files», chúng tôi bỏ chọn hộp «Words» để đánh dấu hộp «Case», cả hai ở phía dưới cùng bên phải của «Cụm từ tìm kiếm», chúng tôi viết trong trường Tìm kiếm bên dưới chữ A và nhấp vào hình chữ nhật màu tím có nội dung "Bắt đầu":

Và nó sẽ liệt kê kết quả của những điều sau đây. hình dạng:

Như chúng ta có thể thấy, một số ký tự được viết với dấu xuất hiện tương tự như từ "Autónoma" thay vì "Autónoma". Điều này là do chúng tôi phải cho AntConc biết ngôn ngữ mã hóa thích hợp cho ngôn ngữ của chúng tôi, vì AntConc không phát hiện ra rằng chúng tôi đang sử dụng tiếng Tây Ban Nha theo mặc định. Đối với điều này, chúng tôi mở tab "Cài đặt Globlal" ở trên cùng bên cạnh "Tệp", chúng tôi đi đến tùy chọn cuối cùng "Cài đặt Mã hóa Ngôn ngữ" ở phía bên phải, chúng tôi nhấp vào "Chỉnh sửa" và chọn tùy chọn đầu tiên "Mã hóa Chuẩn» Chúng tôi nhấp vào nó, chọn tùy chọn thứ ba từ danh sách được hiển thị ở bên phải "Unicode (utf8)" và chúng tôi nhấp vào hộp "Áp dụng" ở phần dưới bên phải của cửa sổ:

Sau khi áp dụng các thay đổi, hãy nhấp lại vào hình chữ nhật màu tím của «Bắt đầu» và các ký tự có dấu bây giờ sẽ xuất hiện dễ đọc:

Bây giờ chúng tôi đang xem xét các từ có chữ A được tô màu xanh lam để dễ nhận biết và dựa trên những cân nhắc của chúng tôi, chúng tôi sẽ chọn những từ chúng tôi muốn đưa vào chỉ mục chuyên đề, ví dụ: "mù chữ máy tính" ở hàng số 17 là phổ biến nhất từ tìm thấy là người đầu tiên được nhắc đến trong mục lục chuyên đề của chúng tôi từ nội dung của văn bản «Hợp tác xây dựng tri thức».

Chúng ta quay trở lại tài liệu pdf «Hợp tác xây dựng kiến ​​thức» để tìm trang «mù chữ máy tính» xuất hiện bằng cách gõ «ctrl + f», viết chữ «mù chữ» vào trường tìm kiếm và nhấn «enter» ở cuối và dấu số lần cần thiết để xác định từ được tìm kiếm trên tất cả các trang. Chúng tôi mở một tài liệu mới trong LibreOffice Writer để tạo chỉ mục chủ đề của chúng tôi hoặc nếu chúng tôi đang làm việc trên nội dung của một tài liệu ban đầu bằng .odt, chúng tôi mở tài liệu đó bằng LibreOffice và chúng tôi sẽ chỉ tạo và chỉnh sửa chỉ mục chủ đề của nó trên bất kỳ trang nào :

Nếu chúng tôi cũng muốn xác định với AntConc trong đó câu nào "mù chữ máy tính" xuất hiện trong tất cả nội dung của tài liệu "Construccion_colaborativa_del_conocimiento.txt", chúng tôi viết "Máy tính mù chữ" trong trường tìm kiếm, bỏ chọn "Trường hợp", đánh dấu "Từ" và nhấp vào nó để "Bắt đầu":

Nếu chúng ta nhấp vào bất kỳ hàng nào được đánh dấu «mù chữ máy tính» với màu xanh lam, ví dụ như trong hàng 4, trong tab «Chế độ xem tệp», nó sẽ cho chúng ta thấy đoạn văn bản nơi lựa chọn này xuất hiện được đánh dấu bằng màu đen của nền :

Theo cách này, AntConc rất hữu ích đối với chúng tôi khi chúng tôi viết một cuốn sách, bài luận hoặc bản tóm tắt và chúng tôi không thực hiện song song một mục lục chuyên đề hoặc để phân tích một cách có hệ thống những ý chính của tác phẩm để tạo điều kiện cho việc đọc nó.


Nội dung bài viết tuân thủ các nguyên tắc của chúng tôi về đạo đức biên tập. Để báo lỗi, hãy nhấp vào đây.

6 bình luận, để lại của bạn

Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.

  1.   RAW-Cơ bản dijo

    Công cụ rất thú vị .. .. Tôi không biết về nó .. và nó rất hữu ích đối với tôi ..

    Cảm ơn bạn..

  2.   Cristianhcd dijo

    bài viết rất hay, thú vị

  3.   Ông già dijo

    Cảm ơn bạn rất nhiều vì đã chia sẻ

  4.   Cách cài đặt Linux dijo

    Đóng góp tuyệt vời, rất hữu ích. Biết rằng trong Linux, bạn có thể có loại công cụ này luôn tạo ra sự khác biệt. Trân trọng.

  5.   Phytoschido dijo

    Bài dự thi xuất sắc. Tôi thích rằng họ xuất bản loại nội dung này!

  6.   jathan dijo

    Xin chào tất cả mọi người. Cảm ơn những bình luận của bạn và một lời xin lỗi vì đã có thể bình luận cho đến nay. Tôi mong rằng những người đã đưa việc dạy thêm vào thực tế không có bất kỳ vấn đề gì.