即使有限制,也可以使用wget下載整個網站

什麼是wget?

沒有比這更好的了 維基百科 解釋此工具的組成:

GNU Wget 是一種免費軟件工具,它允許以簡單的方式從Web服務器下載內容。 它的名稱源自萬維網(w)和“ get”(英語中的get),這意味著:來自WWW。

當前,它支持使用HTTP,HTTPS和FTP協議進行下載。

它提供的最傑出的功能之一 wget的 有可能以遞歸方式輕鬆下載複雜的鏡像,轉換鏈接以本地顯示HTML內容,支持代理...

De wget的 我們已經在這裡談得夠多了 DesdeLinux。 實際上 ya 我們已經看到瞭如何使用wget下載完整的網站,問題是當今的管理員並不總是允許任何人那樣下載整個網站,這並不是他們真正喜歡的東西……而且,顯然,我知道。 該站點位於Internet上以供查閱,讀者可以訪問他們感興趣的內容,並且站點管理員(通過廣告)可以從訪問中獲得財務上的利益(通過廣告)。 如果讀者將站點下載到他的計算機上,則不必上網查詢以前的帖子。

使用wget下載站點非常簡單:

wget -r -k http://www.sitio.com

  • -r :這表示將下載整個網站。
  • -k :表示已下載站點的鏈接將轉換為在沒有Internet的計算機上可見。

現在,當站點管理員對我們造成困難時,事情變得複雜了……

可能存在哪些限制?

我們最常見的發現是只有擁有公認的UserAgent才能訪問該網站。 換句話說,該站點將識別出正在下載這麼多頁面的UserAgent不是“正常”頁面之一,因此將關閉訪問​​。

此外,您還可以通過robots.txt文件指定wget(像一堆其他類似的應用)您將無法按照客戶端的意願進行下載,嗯...嗯,站點管理員希望下載,期限😀

如何規避這些限制?

對於第一種情況,我們將建立要wget的UserAgent,我們可以使用 -用戶代理,在這裡我向您展示如何:

wget --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k

現在,要避開robots.txt,只需排除該文件即可,即讓wget下載該網站,而不必關心robots.txt的內容:

wget --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k -e機械手=關閉

現在...還有其他選項或參數可以用來欺騙該網站,例如,表明我們是從Google進入該網站的,這裡我將最後一行保留為所有內容:

wget --header =“接受:文本/ html” --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” --referer = http:/ /www.google.com -r http://www.site.com -e機械手=關閉-k

站點開頭不必包含http:// www,這可以是強制性的,也可以直接是http://,例如 幾何短跑

這樣可以嗎?

這取決於……您始終必須從站點管理員和讀者的兩個角度來看它。

一方面,作為管理員,我不希望他們那樣獲取我網站的HTML副本,這不是出於娛樂目的,而是為了使所有人享有樂趣而在這裡在線...我們的目標是為您提供有趣的內容,以便您學習。

但是,另一方面,...有些用戶在家中沒有互聯網,他們希望擁有我們在此處放置的整個教程部分...實際上我是因為在家裡我沒有互聯網),並且由於無法訪問網絡而在計算機上,遇到問題或想要做某事而無法執行操作是不愉快的。

是對還是不對取決於每個管理員,每個人的現實……最讓我擔心的是wget在服務器上造成的資源消耗,但是有了一個好的緩存系統,它足以滿足服務器不受影響。

因特網

結論

我請求您現在不要開始下載。 DesdeLinux 哈哈哈!!例如,我女朋友讓我下載一些Geometry Dash Cheats(類似Geometry Dash Cheats的東西),我不會下載整個網站,但我只會打開所需的頁面並將其保存為PDF或HTML什麼的,這就是我會向你推薦什麼。

如果有教程的話 DesdeLinux 如果您想保存,請將其保存在書籤中,以 HTML 或 PDF 形式...但是,對於一兩個教程來說,沒有必要在伺服器上產生過多的流量和消耗 😉

好吧,我希望它對您有用。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。

  1.   埃利奧時間3000 他說:

    有趣的提示。 我不知道你能做到

  2.   埃馬紐埃爾 他說:

    這顯然是我兩次經歷的事情,當然是因為它。 雖然,出於速度原因(家庭還是大學),我想以這種方式訪問內容。 😛
    感謝您的建議。 問候。

  3.   赫拉爾多 他說:

    對於我們這些沒有互聯網的人來說很棒。 當然是很好的教程。

  4.   昆托 他說:

    非常有趣的文章。
    問題:如何對https網站進行處理?
    需要在哪里通過用戶名和密碼進行身份驗證,並且該網站的很大一部分是用Java編寫的?
    問候和感謝

  5.   他說:

    以及下載保存在哪裡?

    1.    他說:

      我回答自己:在個人文件夾中。 但是現在的問題是……您能以某種方式告訴他在哪裡下載內容嗎?

      謝謝

      1.    但以理書 他說:

        我想您首先訪問要保存它的文件夾,然後運行wget

  6.   克里斯蒂安 他說:

    查詢...,將有類似這樣的東西來“克隆”數據庫

  7.   ph 他說:

    我有一個好奇心,將這些鏈接放置到微型壁虎網站上,您會收到錢嗎?

  8.   魯珀托 他說:

    祝福的wget ...這就是我在豬天xD中下載了大量色情內容的方式

  9.   阿魯納多 他說:

    好提示。 謝謝

  10.   他說:

    很好,我喜歡關於規避限制的部分。

  11.   弗朗茨 他說:

    謝謝你的寶石:
    wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e機械手=關閉

    wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e機械手=關閉

    wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e機械手=關閉

  12.   帕洛馬雷斯 他說:

    非常有趣的。

  13.   奧斯卡·梅薩(Oscar Meza) 他說:

    wget是這些功能強大的工具之一,只需進行一些終端編程,就可以使自己的Google風格的機器人開始下載頁面的內容並將其存儲在自己的數據庫中,並在以後使用該數據進行任何處理。

  14.   卡洛斯·G 他說:

    我發現這個工具非常有趣,我從沒注意過它的參數,我想知道是否可以從需要登錄才能進入的“ X”頁面下載內容,以及該內容是否在本網站的某個地方« X»有視頻嗎,即使它屬於“ X»網站以外的CDN,我也要下載嗎?

    如果可能的話,站點如何防止這種工具?

    的問候!

  15.   埃里克·扎納迪(Erick zanardi) 他說:

    晚安:

    我正在寫信給您諮詢。 我使用本文的最後一條命令下載了該頁面上將近300MB的信息..文件.swf,.js,.html http://www.netacad.com/es 與我的用戶一起在委內瑞拉的馬拉凱(Maracay)進行的一門小課程中學習。

    我的問題是…是否可以看到Flash動畫?

    我輸入“全局配置”,它顯示的選項都不允許我進行配置。

    感謝您的回應。

    在此先感謝!

    1.    ADX 他說:

      我有相同的詳細信息,.swf文件下載了一半,如果您設法跳過它,請分享我的信息。 我上次所做的是使用蜘蛛獲取所有netacad鏈接,但.swf仍未按要求完成下載

  16.   亞歷杭德羅·埃爾南德斯 他說:

    很好 !!! 謝謝。

  17.   安娜 他說:

    您好,謝謝您的短裙。 我正在嘗試下載一個受密碼邀請的博客,以便無需連接即可在家中閱讀。 我使用了該程序,很明顯,我擁有博客(wordpress)的密碼,但是我不知道如何進行。 可以展示給我嗎?
    在此先感謝您,並致以最誠摯的問候!

  18.   弗蘭 他說:

    多麼棒的帖子!

  19.   聖地亞哥 他說:

    很棒,對我很有幫助

  20.   弗蘭 他說:

    我登錄到帶有嵌入式vimeo視頻的網站,並且無法下載它們。.似乎vimeo已對其進行保護。 有任何想法嗎??