即使有限制，也可以使用 wget 下載完整網站

即使有限制，也可以使用wget下載整個網站

什麼是wget？

沒有比這更好的了 維基百科 解釋此工具的組成：

GNU Wget 是一種免費軟件工具，它允許以簡單的方式從Web服務器下載內容。它的名稱源自萬維網（w）和“ get”（英語中的get），這意味著：來自WWW。

當前，它支持使用HTTP，HTTPS和FTP協議進行下載。

它提供的最傑出的功能之一 wget的 有可能以遞歸方式輕鬆下載複雜的鏡像，轉換鏈接以本地顯示HTML內容，支持代理...

De wget的 我們已經在這裡談得夠多了 DesdeLinux。實際上 ya 我們已經看到瞭如何使用wget下載完整的網站，問題是當今的管理員並不總是允許任何人那樣下載整個網站，這並不是他們真正喜歡的東西……而且，顯然，我知道。該站點位於Internet上以供查閱，讀者可以訪問他們感興趣的內容，並且站點管理員（通過廣告）可以從訪問中獲得財務上的利益（通過廣告）。如果讀者將站點下載到他的計算機上，則不必上網查詢以前的帖子。

使用wget下載站點非常簡單：

wget -r -k http://www.sitio.com

-r ：這表示將下載整個網站。
-k ：表示已下載站點的鏈接將轉換為在沒有Internet的計算機上可見。

現在，當站點管理員對我們造成困難時，事情變得複雜了……

可能存在哪些限制？

我們最常見的發現是只有擁有公認的UserAgent才能訪問該網站。換句話說，該站點將識別出正在下載這麼多頁面的UserAgent不是“正常”頁面之一，因此將關閉訪問。

此外，您還可以通過robots.txt文件指定wget（像一堆其他類似的應用）您將無法按照客戶端的意願進行下載，嗯...嗯，站點管理員希望下載，期限😀

如何規避這些限制？

對於第一種情況，我們將建立要wget的UserAgent，我們可以使用 -用戶代理，在這裡我向您展示如何：

wget --user-agent =“ Mozilla / 5.0（X11; Linux amd64; rv：32.0b4）Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k

現在，要避開robots.txt，只需排除該文件即可，即讓wget下載該網站，而不必關心robots.txt的內容：

wget --user-agent =“ Mozilla / 5.0（X11; Linux amd64; rv：32.0b4）Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k -e機械手=關閉

現在...還有其他選項或參數可以用來欺騙該網站，例如，表明我們是從Google進入該網站的，這裡我將最後一行保留為所有內容：

wget --header =“接受：文本/ html” --user-agent =“ Mozilla / 5.0（X11; Linux amd64; rv：32.0b4）Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” --referer = http：/ /www.google.com -r http://www.site.com -e機械手=關閉-k

站點開頭不必包含http：// www，這可以是強制性的，也可以直接是http：//，例如幾何短跑

這樣可以嗎？

這取決於……您始終必須從站點管理員和讀者的兩個角度來看它。

一方面，作為管理員，我不希望他們那樣獲取我網站的HTML副本，這不是出於娛樂目的，而是為了使所有人享有樂趣而在這裡在線...我們的目標是為您提供有趣的內容，以便您學習。

但是，另一方面，...有些用戶在家中沒有互聯網，他們希望擁有我們在此處放置的整個教程部分...實際上我是因為在家裡我沒有互聯網），並且由於無法訪問網絡而在計算機上，遇到問題或想要做某事而無法執行操作是不愉快的。

是對還是不對取決於每個管理員，每個人的現實……最讓我擔心的是wget在服務器上造成的資源消耗，但是有了一個好的緩存系統，它足以滿足服務器不受影響。

結論

我請求您現在不要開始下載。 DesdeLinux 哈哈哈！！例如，我女朋友讓我下載一些Geometry Dash Cheats（類似Geometry Dash Cheats的東西），我不會下載整個網站，但我只會打開所需的頁面並將其保存為PDF或HTML什麼的，這就是我會向你推薦什麼。

如果有教程的話 DesdeLinux 如果您想保存，請將其保存在書籤中，以 HTML 或 PDF 形式...但是，對於一兩個教程來說，沒有必要在伺服器上產生過多的流量和消耗 😉

好吧，我希望它對您有用。

發表您的評論取消回复

埃利奧時間3000 他說：
前 10年

有趣的提示。我不知道你能做到

回复eliotime3000
埃馬紐埃爾他說：
前 10年

這顯然是我兩次經歷的事情，當然是因為它。雖然，出於速度原因（家庭還是大學），我想以這種方式訪問內容。 😛
感謝您的建議。問候。

回复伊曼紐爾
赫拉爾多他說：
前 10年

對於我們這些沒有互聯網的人來說很棒。當然是很好的教程。

回复杰拉爾多
昆托他說：
前 10年

非常有趣的文章。
問題：如何對https網站進行處理？
需要在哪里通過用戶名和密碼進行身份驗證，並且該網站的很大一部分是用Java編寫的？
問候和感謝

回复奎諾托
鍺他說：
前 10年

以及下載保存在哪裡？

回應Gelibasio
1. 鍺他說：
  前 10年
  
  我回答自己：在個人文件夾中。但是現在的問題是……您能以某種方式告訴他在哪裡下載內容嗎？
  
  謝謝
  
  回應Gelibasio
  1. 但以理書他說：
    前 10年
    
    我想您首先訪問要保存它的文件夾，然後運行wget
    
    回复丹尼爾
克里斯蒂安他說：
前 10年

查詢...，將有類似這樣的東西來“克隆”數據庫

回复cristian
ph 他說：
前 10年

我有一個好奇心，將這些鏈接放置到微型壁虎網站上，您會收到錢嗎？

回复xphnx
魯珀托他說：
前 10年

祝福的wget ...這就是我在豬天xD中下載了大量色情內容的方式

回复Ruperto
阿魯納多他說：
前 10年

好提示。謝謝

回复alunado
空他說：
前 10年

很好，我喜歡關於規避限制的部分。

回复NULL
弗朗茨他說：
前 10年

謝謝你的寶石：
wget –header =»接受：text / html»–user-agent =»Mozilla / 5.0（X11; Linux i686; rv：31）Gecko / 20100101 Firefox / 31” –referer = http：//www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e機械手=關閉

wget –header =»接受：text / html»–user-agent =»Mozilla / 5.0（X11; Linux i686; rv：31）Gecko / 20100101 Firefox / 31” –referer = http：//www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e機械手=關閉

wget –header =»接受：text / html»–user-agent =»Mozilla / 5.0（X11; Linux i686; rv：31）Gecko / 20100101 Firefox / 31” –referer = http：//www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e機械手=關閉

回复弗朗茲
帕洛馬雷斯他說：
前 10年

非常有趣的。

回复Palomares
奧斯卡·梅薩（Oscar Meza）他說：
前 10年

wget是這些功能強大的工具之一，只需進行一些終端編程，就可以使自己的Google風格的機器人開始下載頁面的內容並將其存儲在自己的數據庫中，並在以後使用該數據進行任何處理。

回复奧斯卡·梅薩
卡洛斯·G 他說：
前 9年

我發現這個工具非常有趣，我從沒注意過它的參數，我想知道是否可以從需要登錄才能進入的“ X”頁面下載內容，以及該內容是否在本網站的某個地方« X»有視頻嗎，即使它屬於“ X»網站以外的CDN，我也要下載嗎？

如果可能的話，站點如何防止這種工具？

的問候！

回复Carlos G
埃里克·扎納迪（Erick zanardi）他說：
前 9年

晚安：

我正在寫信給您諮詢。我使用本文的最後一條命令下載了該頁面上將近300MB的信息..文件.swf，.js，.html http://www.netacad.com/es 與我的用戶一起在委內瑞拉的馬拉凱（Maracay）進行的一門小課程中學習。

我的問題是…是否可以看到Flash動畫？

我輸入“全局配置”，它顯示的選項都不允許我進行配置。

感謝您的回應。

在此先感謝！

回复埃里克·扎納爾迪
1. ADX 他說：
  前 9年
  
  我有相同的詳細信息，.swf文件下載了一半，如果您設法跳過它，請分享我的信息。我上次所做的是使用蜘蛛獲取所有netacad鏈接，但.swf仍未按要求完成下載
  
  回复ADX
亞歷杭德羅·埃爾南德斯他說：
前 8年

很好！！！謝謝。

回复alejandro.hernandez
安娜他說：
前 8年

您好，謝謝您的短裙。我正在嘗試下載一個受密碼邀請的博客，以便無需連接即可在家中閱讀。我使用了該程序，很明顯，我擁有博客（wordpress）的密碼，但是我不知道如何進行。可以展示給我嗎？
在此先感謝您，並致以最誠摯的問候！

回復安娜
弗蘭他說：
前 7年

多麼棒的帖子！

回复弗蘭
聖地亞哥他說：
前 7年

很棒，對我很有幫助

回复聖地亞哥
弗蘭他說：
前 7年

我登錄到帶有嵌入式vimeo視頻的網站，並且無法下載它們。.似乎vimeo已對其進行保護。有任何想法嗎？？

回复弗蘭

什麼是wget？

可能存在哪些限制？

如何規避這些限制？

這樣可以嗎？

結論

發表您的評論 取消回复

發表您的評論取消回复