什麼是wget?
沒有比這更好的了 維基百科 解釋此工具的組成:
GNU Wget 是一種免費軟件工具,它允許以簡單的方式從Web服務器下載內容。 它的名稱源自萬維網(w)和“ get”(英語中的get),這意味著:來自WWW。
當前,它支持使用HTTP,HTTPS和FTP協議進行下載。
它提供的最傑出的功能之一 wget的 有可能以遞歸方式輕鬆下載複雜的鏡像,轉換鏈接以本地顯示HTML內容,支持代理...
De wget的 我們已經在這裡談得夠多了 DesdeLinux。 實際上 ya 我們已經看到瞭如何使用wget下載完整的網站,問題是當今的管理員並不總是允許任何人那樣下載整個網站,這並不是他們真正喜歡的東西……而且,顯然,我知道。 該站點位於Internet上以供查閱,讀者可以訪問他們感興趣的內容,並且站點管理員(通過廣告)可以從訪問中獲得財務上的利益(通過廣告)。 如果讀者將站點下載到他的計算機上,則不必上網查詢以前的帖子。
使用wget下載站點非常簡單:
wget -r -k http://www.sitio.com
- -r :這表示將下載整個網站。
- -k :表示已下載站點的鏈接將轉換為在沒有Internet的計算機上可見。
現在,當站點管理員對我們造成困難時,事情變得複雜了……
可能存在哪些限制?
我們最常見的發現是只有擁有公認的UserAgent才能訪問該網站。 換句話說,該站點將識別出正在下載這麼多頁面的UserAgent不是“正常”頁面之一,因此將關閉訪問。
此外,您還可以通過robots.txt文件指定wget(像一堆其他類似的應用)您將無法按照客戶端的意願進行下載,嗯...嗯,站點管理員希望下載,期限😀
如何規避這些限制?
對於第一種情況,我們將建立要wget的UserAgent,我們可以使用 -用戶代理,在這裡我向您展示如何:
wget --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k
現在,要避開robots.txt,只需排除該文件即可,即讓wget下載該網站,而不必關心robots.txt的內容:
wget --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k -e機械手=關閉
現在...還有其他選項或參數可以用來欺騙該網站,例如,表明我們是從Google進入該網站的,這裡我將最後一行保留為所有內容:
wget --header =“接受:文本/ html” --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” --referer = http:/ /www.google.com -r http://www.site.com -e機械手=關閉-k
這樣可以嗎?
這取決於……您始終必須從站點管理員和讀者的兩個角度來看它。
一方面,作為管理員,我不希望他們那樣獲取我網站的HTML副本,這不是出於娛樂目的,而是為了使所有人享有樂趣而在這裡在線...我們的目標是為您提供有趣的內容,以便您學習。
但是,另一方面,...有些用戶在家中沒有互聯網,他們希望擁有我們在此處放置的整個教程部分...實際上我是因為在家裡我沒有互聯網),並且由於無法訪問網絡而在計算機上,遇到問題或想要做某事而無法執行操作是不愉快的。
是對還是不對取決於每個管理員,每個人的現實……最讓我擔心的是wget在服務器上造成的資源消耗,但是有了一個好的緩存系統,它足以滿足服務器不受影響。
結論
我請求您現在不要開始下載。 DesdeLinux 哈哈哈!!例如,我女朋友讓我下載一些Geometry Dash Cheats(類似Geometry Dash Cheats的東西),我不會下載整個網站,但我只會打開所需的頁面並將其保存為PDF或HTML什麼的,這就是我會向你推薦什麼。
如果有教程的話 DesdeLinux 如果您想保存,請將其保存在書籤中,以 HTML 或 PDF 形式...但是,對於一兩個教程來說,沒有必要在伺服器上產生過多的流量和消耗 😉
好吧,我希望它對您有用。
有趣的提示。 我不知道你能做到
這顯然是我兩次經歷的事情,當然是因為它。 雖然,出於速度原因(家庭還是大學),我想以這種方式訪問內容。 😛
感謝您的建議。 問候。
對於我們這些沒有互聯網的人來說很棒。 當然是很好的教程。
非常有趣的文章。
問題:如何對https網站進行處理?
需要在哪里通過用戶名和密碼進行身份驗證,並且該網站的很大一部分是用Java編寫的?
問候和感謝
以及下載保存在哪裡?
我回答自己:在個人文件夾中。 但是現在的問題是……您能以某種方式告訴他在哪裡下載內容嗎?
謝謝
我想您首先訪問要保存它的文件夾,然後運行wget
查詢...,將有類似這樣的東西來“克隆”數據庫
我有一個好奇心,將這些鏈接放置到微型壁虎網站上,您會收到錢嗎?
祝福的wget ...這就是我在豬天xD中下載了大量色情內容的方式
好提示。 謝謝
很好,我喜歡關於規避限制的部分。
謝謝你的寶石:
wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e機械手=關閉
wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e機械手=關閉
wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e機械手=關閉
非常有趣的。
wget是這些功能強大的工具之一,只需進行一些終端編程,就可以使自己的Google風格的機器人開始下載頁面的內容並將其存儲在自己的數據庫中,並在以後使用該數據進行任何處理。
我發現這個工具非常有趣,我從沒注意過它的參數,我想知道是否可以從需要登錄才能進入的“ X”頁面下載內容,以及該內容是否在本網站的某個地方« X»有視頻嗎,即使它屬於“ X»網站以外的CDN,我也要下載嗎?
如果可能的話,站點如何防止這種工具?
的問候!
晚安:
我正在寫信給您諮詢。 我使用本文的最後一條命令下載了該頁面上將近300MB的信息..文件.swf,.js,.html http://www.netacad.com/es 與我的用戶一起在委內瑞拉的馬拉凱(Maracay)進行的一門小課程中學習。
我的問題是…是否可以看到Flash動畫?
我輸入“全局配置”,它顯示的選項都不允許我進行配置。
感謝您的回應。
在此先感謝!
我有相同的詳細信息,.swf文件下載了一半,如果您設法跳過它,請分享我的信息。 我上次所做的是使用蜘蛛獲取所有netacad鏈接,但.swf仍未按要求完成下載
很好 !!! 謝謝。
您好,謝謝您的短裙。 我正在嘗試下載一個受密碼邀請的博客,以便無需連接即可在家中閱讀。 我使用了該程序,很明顯,我擁有博客(wordpress)的密碼,但是我不知道如何進行。 可以展示給我嗎?
在此先感謝您,並致以最誠摯的問候!
多麼棒的帖子!
很棒,對我很有幫助
我登錄到帶有嵌入式vimeo視頻的網站,並且無法下載它們。.似乎vimeo已對其進行保護。 有任何想法嗎??