Với thiết bị đầu cuối: Tải xuống một trang web hoàn chỉnh với Wget

Không có gì tốt hơn Wikipedia để giải thích công cụ này bao gồm những gì:

GNU Wget là một công cụ phần mềm miễn phí cho phép tải nội dung từ máy chủ web một cách đơn giản. Tên của nó bắt nguồn từ World Wide Web (w), và từ "get" (trong tiếng Anh là get), có nghĩa là: lấy từ WWW.

Hiện tại, nó hỗ trợ tải xuống bằng giao thức HTTP, HTTPS và FTP.

Trong số các tính năng nổi bật nhất mà nó mang lại wget có khả năng dễ dàng tải xuống đệ quy các máy nhân bản phức tạp, chuyển đổi các liên kết để hiển thị nội dung HTML cục bộ, hỗ trợ proxy ...

Đúng là có những ứng dụng khác giúp chúng tôi thực hiện loại công việc này như httrack hoặc thậm chí là phần mở rộng cho Firefox như Sổ lưu niệm, nhưng không có gì giống như sự đơn giản của một thiết bị đầu cuối 😀

Làm điều kỳ diệu

Tôi rất tò mò về bộ phim: The Social Network, như nhân vật của mark_zuckerberg sử dụng cụm từ: «Một chút ma thuật«, Khi tôi chuẩn bị tải ảnh cho Facemash 😀 và đó là sự thật, wget cho phép bạn làm phép thuật với các thông số thích hợp.

Hãy xem một vài ví dụ, hãy bắt đầu với việc sử dụng công cụ đơn giản.

Để đi xuống một trang:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Để tải xuống toàn bộ trang web một cách đệ quy, bao gồm cả hình ảnh và các loại dữ liệu khác:

$ wget -r https://blog.desdelinux.net/

Và đây là điều kỳ diệu. Như họ giải thích cho chúng tôi trong bài báo của Con người, nhiều trang web xác minh danh tính của trình duyệt để áp dụng các hạn chế khác nhau. Với Quên chúng ta có thể phá vỡ điều này theo cách sau:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Hoặc chúng tôi cũng có thể tạm dừng giữa mỗi trang, nếu không chủ sở hữu trang web có thể nhận ra rằng chúng tôi đang tải xuống trang web hoàn toàn bằng Quên.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.

  1.   pandev92 dijo

    Có một cái gì đó để tải về chỉ những hình ảnh xd?

    1.    SỰ KHÍCH LỆ dijo

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Điều đó tôi chỉ đọc được suy nghĩ của bạn hahahaha

      1.    pandev92 dijo

        lol oo xd

    2.    KZKG ^ Gaara dijo

      người đàn ông wget ????

      1.    pandev92 dijo

        Cuộc sống là quá ngắn để đọc người đàn ông.

        1.    KZKG ^ Gaara dijo

          Cuộc sống quá ngắn để lấp đầy thông tin vào não bộ, nhưng nó vẫn có giá trị để cố gắng 🙂

          1.    pandev92 dijo

            Thông tin có giá trị một nửa, tôi thích điền vào đó là phụ nữ, trò chơi và tiền nếu có thể XD.

          2.    SỰ KHÍCH LỆ dijo

            Bạn luôn nghĩ về phụ nữ. Từ bây giờ, bạn sẽ được nghe Dadee Yankee, Don Omar và Wisin Y Yandel như KZKG ^ Gaara.

            Hãy cống hiến hết mình cho tiền bạc, đó là điều quan trọng nhất trong cuộc sống này

            1.    KZKG ^ Gaara dijo

              Có những thứ đáng giá hơn nhiều tiền ... ví dụ như đi vào lịch sử, tạo ra sự khác biệt, được ghi nhớ vì bạn đã đóng góp được bao nhiêu cho thế giới; và không phải vì bạn có bao nhiêu tiền khi bạn chết 😉

              Cố gắng không trở thành một người thành công mà là một người dũng cảm, Albert Einsein.


          3.    SỰ KHÍCH LỆ dijo

            Và một người ăn xin sống dưới gầm cầu có thể làm điều đó mà không có một xu dính túi?

            Ồ không

          4.    SỰ KHÍCH LỆ dijo

            *có

          5.    pandev92 dijo

            Can đảm lên, tôi đã có kỷ nguyên reggaeton của mình và cũng không còn nữa, đó là nhiều năm trước, tôi chỉ nghe nhạc Nhật và nhạc cổ điển, và với số tiền bỏ ra… chúng tôi đang làm việc đó :)

          6.    pandev92 dijo

            Tôi không quan tâm đến việc được nhớ đến ga-ra, khi tôi chết, tôi sẽ chết và vặn người khác, vì tôi thậm chí sẽ không thể biết họ nghĩ gì về tôi. Điều đáng được ghi nhớ nhưng bạn có thể tự hào về điều đó xD.

    3.    hypersayan_x dijo

      Để tải xuống một loại tệp cụ thể, bạn có thể sử dụng các bộ lọc:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      Và một mẹo nhỏ, nếu bạn định sao chép một trang rất lớn, bạn nên thực hiện việc đó thông qua proxy như tor, vì nếu không sẽ có một số trang nhất định đạt đến một số lượng yêu cầu nhất định liên tiếp, chặn IP của bạn. trong vài giờ hoặc vài ngày.
      Lần khác, điều đó đã xảy ra với tôi khi tôi muốn sao chép một wiki.

    4.    mdir dijo

      Một tiện ích mở rộng, mà tôi sử dụng trong Firefox, chỉ tải xuống hình ảnh; nó được gọi là "Lưu hình ảnh 0.94"

  2.   nâu dijo

    e là một câu hỏi hehe các tập tin mà tôi tải về được lưu ở đâu? Họ sẽ muốn giết tôi, phải không? cười lớn

    1.    KZKG ^ Gaara dijo

      Các tệp được tải xuống thư mục mà bạn đang ở trong thiết bị đầu cuối khi thực thi wget 😉

  3.   auroszx dijo

    Ahh, tôi không tưởng tượng được rằng wget có thể có một cách sử dụng thú vị như vậy ... Bây giờ, về cách sử dụng mà Courage đề cập đến ... Không có lời nào 😉

  4.   Carlos-Xfce dijo

    Có ai biết có plugin WordPress nào ngăn Wget tải xuống blog của bạn không?

  5.   anh yêu dijo

    Chà, nó thật tuyệt đối với tôi !! Cảm ơn bạn

  6.   piolavski dijo

    Hay lắm, thử xem thế nào, cảm ơn đã đóng góp.

  7.   lyairmg dijo

    Mặc dù tôi tự cho mình là người mới bắt đầu, nhưng điều này thật dễ dàng đối với tôi bây giờ tôi sẽ cố gắng kết hợp nó với những thứ khác và xem nó mang lại gì….

  8.   Oswaldo dijo

    Mong các bạn giúp đỡ vì hôm nay là thứ 3 ngày 2012 tháng XNUMX năm XNUMX

    Dự án sẽ được phát triển như sau:

    Định vị lại một trang web bằng cách điều chỉnh các tham chiếu href.
    1.-Xem xét một trang Web, tải trang web hoàn chỉnh vào một thư mục cục bộ bằng lệnh wget. Và sử dụng tập lệnh thuộc quyền tác giả của bạn, hãy thực hiện các thao tác sau:

    1.1.-Tạo một thư mục độc lập cho từng loại nội dung: ảnh gif, ảnh jpeg, v.v., video avi, video mpg, v.v., âm thanh mp3, âm thanh wav, v.v., nội dung web (HTML, javascript, v.v.).

    1.2.-Sau khi từng nội dung này đã được di dời, tiến hành điều chỉnh các tham chiếu đến vị trí cục bộ của từng tài nguyên trên trang web.

    1.3.-Kích hoạt một máy chủ Web, và cấu hình thư mục gốc nơi chứa bản sao lưu trang Web làm thư mục gốc của máy chủ Web cục bộ.

    1.4.-Lưu ý: lệnh wget chỉ có thể được sử dụng với các tùy chọn sau:
    –Recursive
    –Domains
    –Page-điều kiện cần
    Nếu vì lý do nào đó cần nhiều lệnh hơn, hãy sử dụng những lệnh cần thiết.

    1.    KZKG ^ Gaara dijo

      Để tải xuống ở đây, tôi nghĩ bạn có giải pháp trong bài viết, bây giờ ... để di chuyển tệp và thay thế đường dẫn, tôi đã phải làm điều gì đó như thế này một thời gian trước đây trong công việc của mình, tôi để lại cho bạn tập lệnh mà tôi đã sử dụng: http://paste.desdelinux.net/4670

      Bạn sửa đổi nó có tính đến loại tệp và đường dẫn, nghĩa là cách .HTML của trang web của bạn được tạo thành và điều đó.

      Đây không phải là giải pháp 100% vì bạn phải sắp xếp hoặc thay đổi nhưng tôi đảm bảo rằng đó là 70 hoặc 80% của tất cả công việc 😉

      1.    Oswaldo dijo

        Cảm ơn KZKG ^ Gaara đã giúp đỡ tôi rất nhiều

  9.   món nợ dijo

    Tôi đã luôn sử dụng httrack. Sổ lưu niệm cho firefox Tôi sẽ thử nó, nhưng tôi thích wget. Cảm ơn bạn!

  10.   Daniel PZ dijo

    Trời ạ, lệnh này không hoạt động với tôi ... lệnh này hoạt động tốt với tôi:

    wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

    1.    Daniel dijo

      Cảm ơn rất nhiều! Tôi đã sử dụng nó với các thông số do Daniel PZ đề xuất và tôi không gặp vấn đề gì 🙂

  11.   Ruben Almaguer dijo

    Cảm ơn cậu bé, tôi đã làm điều đó với WGet trên con chó con Linux của mình nhưng tôi không biết cách làm điều đó trong thiết bị đầu cuối. Một lời chào

  12.   bướng bỉnh dijo

    bạn giữ các trang ở đâu?

    1.    Cây rìu dijo

      Nơi bạn có thiết bị đầu cuối đang mở. Lúc đầu, trong thư mục gốc người dùng của bạn, trừ khi bạn chỉ ra một đường dẫn khác.

  13.   fernando dijo

    Cũng tải về các liên kết? Vì vậy, nếu có một liên kết đến một pdf hoặc tài liệu khác, bạn có tải xuống luôn không?

  14.   sông dijo

    Tôi có thể làm gì để tải xuống toàn bộ blog của mình, tôi đã thử và những gì tôi không thể thấy dường như nằm trong mã hoặc bị chặn, mặc dù mất nhiều giờ để tải xuống nhưng chỉ có thể đọc trang đầu tiên, tôi khuyên bạn nên tải xuống blog của tôi, cảm ơn raul.

  15.   leo dijo

    xin chào, bạn có thể nghi ngờ rằng có thể thay thế các liên kết trong html, để sau này có thể duyệt qua trang đã tải xuống như thể nó là trang gốc.

    Điều gì xảy ra là tôi tải xuống trang và khi tôi mở nó từ các tệp đã tải xuống, tôi không lấy .css hoặc .js và các liên kết trên trang dẫn tôi đến trang trên Internet.