即使有限制，也可以使用 wget 下载完整网站

即使有限制，也可以使用wget下载整个网站

什么是wget？

没有比这更好的了 维基百科上的数据 解释此工具的组成：

GNU Wget 是一种免费软件工具，它允许以简单的方式从Web服务器下载内容。它的名称源自万维网（w）和“ get”（英语中的get），这意味着：来自WWW。

当前，它支持使用HTTP，HTTPS和FTP协议进行下载。

它提供的最杰出的功能之一 wget的 有可能以递归方式轻松下载复杂的镜像，转换链接以本地显示HTML内容，支持代理...

De wget的 我们已经在这里谈得够多了 DesdeLinux。实际上 ya 我们已经看到了如何使用wget下载完整的网站，问题是当今的管理员并不总是允许任何人那样下载整个网站，这并不是他们真正喜欢的东西……而且，显然，我了解。该站点可以在Internet上进行查阅，读者可以访问感兴趣的内容，并且站点管理员可以很好地（通过广告）从财务上获得收益，例如访问等。如果读者将站点下载到他的计算机，则他将不必上网查询以前的帖子。

使用wget下载站点非常简单：

wget -r -k http://www.sitio.com

-r ：这表示将下载整个网站。
-k ：表示已下载站点的链接将转换为在没有Internet的计算机上可见。

现在，当站点管理员对我们造成困难时，事情变得复杂了……

可能存在哪些限制？

我们最常见的发现是只有拥有公认的UserAgent才能访问该网站。换句话说，该站点将识别出正在下载这么多页面的UserAgent不是“正常”页面之一，因此将关闭访问。

此外，您还可以通过robots.txt文件指定wget（像一堆其他类似的应用）您将无法按照客户端的意愿进行下载，嗯...嗯，站点管理员希望下载，期限😀

如何规避这些限制？

对于第一种情况，我们将建立要wget的UserAgent，我们可以使用 -用户代理，在这里我向您展示如何：

wget --user-agent =“ Mozilla / 5.0（X11; Linux amd64; rv：32.0b4）Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k

现在，要避开robots.txt，只需排除该文件即可，即让wget下载该网站，而不必关心robots.txt的内容：

wget --user-agent =“ Mozilla / 5.0（X11; Linux amd64; rv：32.0b4）Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k -e机械手=关闭

现在...还有其他选项或参数可用来进一步欺骗该网站，例如，表明我们是从Google进入该网站的，这里我将最后一行保留所有内容：

wget --header =“接受：文本/ html” --user-agent =“ Mozilla / 5.0（X11; Linux amd64; rv：32.0b4）Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” --referer = http：/ /www.google.com -r http://www.site.com -e机械手=关闭-k

站点开头不必包含http：// www，这可以是强制性的，也可以直接是http：//，例如几何短跑

这样可以吗？

这取决于……您始终必须从站点管理员和读者的两个角度来看它。

一方面，作为管理员，我不希望他们那样获取我网站的HTML副本，它不是为了娱乐，为了所有人的娱乐而在这里在线……我们的目标是拥有有趣的内容可以学习。

但是，另一方面，...有些用户在家中没有互联网，他们希望拥有我们在此处放置的整个“教程”部分...我将自己放在自己的位置（实际上我是因为在家里我没有互联网），并且在计算机上，遇到问题或想要做某事而不能因为您无法访问网络而感到不愉快。

是对还是不对取决于每个管理员，每个人的现实……最让我担心的是wget导致服务器上的资源消耗，但是对于一个好的缓存系统来说，对于服务器来说这应该足够了遭受。

结论

我请求您现在不要开始下载。 DesdeLinux 哈哈哈！！例如，我女朋友让我下载一些Geometry Dash Cheats（类似Geometry Dash Cheats的东西），我不会下载整个网站，但我只会打开所需的页面并将其保存为PDF或HTML什么的，这就是我会向你推荐什么。

如果有教程的话 DesdeLinux 如果您想保存，请将其保存在书签中，以 HTML 或 PDF 形式...但是，对于一两个教程来说，没有必要在服务器上产生过多的流量和消耗 😉

好吧，我希望它对您有用。

发表您的评论取消回复

埃利奥时间3000 说
前 9年

有趣的提示。我不知道你能做到。

回复eliotime3000
灵光说
前 9年

这显然是我两次经历的事情，当然是因为它。虽然，出于速度原因（家庭还是大学），我想以这种方式访问内容。 😛
感谢您的建议。问候。

回复伊曼纽尔
赫拉尔说
前 9年

对于我们这些没有互联网的人来说很棒。当然是很好的教程。

回复杰拉尔多
昆托说
前 9年

非常有趣的文章。
问题：如何对https网站进行处理？
需要在哪里通过用户名和密码进行身份验证，并且该网站的大部分内容都是用Java编写的？
问候和感谢

回复奎诺托
锗说
前 9年

以及下载保存在哪里？

回应Gelibasio
1. 锗说
  前 9年
  
  我回答自己：在个人文件夹中。但是现在的问题是……您能以某种方式告诉他在哪里下载内容吗？
  
  graciass
  
  回应Gelibasio
  1. 丹尼尔说
    前 9年
    
    我想您首先访问要保存它的文件夹，然后运行wget
    
    回复丹尼尔
克里斯蒂安说
前 9年

查询...，将有类似这样的东西来“克隆”数据库

回复cristian
ph 说
前 9年

我有一个好奇心，将这些链接放置到微型利基网站上，您会收到钱吗？

回复xphnx
鲁珀托说
前 9年

祝福的wget ...这就是我在猪天xD中下载了大量色情内容的方式

回复Ruperto
阿鲁纳多说
前 9年

好提示。谢谢

回复alunado
无说
前 9年

很好，我喜欢关于规避限制的部分。

回复NULL
弗兰兹说
前 9年

谢谢你的宝石：
wget –header =»接受：text / html»–user-agent =»Mozilla / 5.0（X11; Linux i686; rv：31）Gecko / 20100101 Firefox / 31” –referer = http：//www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e机械手=关闭

wget –header =»接受：text / html»–user-agent =»Mozilla / 5.0（X11; Linux i686; rv：31）Gecko / 20100101 Firefox / 31” –referer = http：//www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e机械手=关闭

wget –header =»接受：text / html»–user-agent =»Mozilla / 5.0（X11; Linux i686; rv：31）Gecko / 20100101 Firefox / 31” –referer = http：//www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e机械手=关闭

回复弗朗兹
帕洛马雷斯说
前 9年

非常有趣的。

回复Palomares
奥斯卡·梅萨（Oscar Meza）说
前 9年

wget是这些功能强大的工具之一，只需进行一些终端编程，就可以使自己的Google风格的机器人开始下载页面的内容并将其存储在自己的数据库中，并在以后使用该数据进行任何处理。

回复奥斯卡·梅萨
卡洛斯·G 说
前 9年

我发现这个工具非常有趣，我从没注意过它的参数，我想知道是否可以从需要登录才能进入的“ X”页面下载内容，以及是否在某个地方在“ X”网站上有视频吗，即使它属于不同于“ X”网站的CDN，我也要下载吗？

如果可能的话，站点如何防止这种工具？

的问候！

回复Carlos G
埃里克·扎纳迪（Erick zanardi）说
前 9年

晚安：

我正在写信给您咨询。我使用本文的最后一条命令下载了该页面上将近300MB的信息..文件.swf，.js，.html http://www.netacad.com/es 与我的用户一起从我在委内瑞拉的马拉凯（Maracay）进行的一门小课程中学习。

我的问题是…是否可以看到Flash动画？

我输入“全局配置”，它显示的选项都不允许我进行配置。

感谢您的回应。

提前致谢！

回复埃里克·扎纳尔迪
1. ADX 说
  前 9年
  
  我有相同的详细信息，.swf文件下载了一半，如果您设法跳过它，请分享我的信息。我上次所做的是使用蜘蛛获取所有netacad链接，但.swf仍未按要求完成下载
  
  回复ADX
亚历杭德罗·埃尔南德斯说
前 8年

很好！！！谢谢。

回复alejandro.hernandez
安娜说
前 8年

您好，谢谢您的短裙。我正在尝试下载一个受密码邀请的博客，以便无需连接即可在家中阅读。我使用了该程序，很明显，我拥有博客（wordpress）的密码，但是我不知道如何进行。可以展示给我吗？
在此先感谢您，并致以最诚挚的问候！

回复安娜
弗兰说
前 7年

多么棒的帖子！

回复弗兰
圣地亚哥说
前 7年

很棒，对我很有帮助

回复圣地亚哥
弗兰说
前 7年

我登录到带有嵌入式vimeo视频的网站，并且无法下载它们。.似乎vimeo已对其进行保护。有任何想法吗？？

回复弗兰

什么是wget？

可能存在哪些限制？

如何规避这些限制？

这样可以吗？

结论

发表您的评论 取消回复

发表您的评论取消回复