什么是wget?
没有比这更好的了 维基百科上的数据 解释此工具的组成:
GNU Wget 是一种免费软件工具,它允许以简单的方式从Web服务器下载内容。 它的名称源自万维网(w)和“ get”(英语中的get),这意味着:来自WWW。
当前,它支持使用HTTP,HTTPS和FTP协议进行下载。
它提供的最杰出的功能之一 wget的 有可能以递归方式轻松下载复杂的镜像,转换链接以本地显示HTML内容,支持代理...
De wget的 我们已经在这里谈得够多了 DesdeLinux。 实际上 ya 我们已经看到了如何使用wget下载完整的网站,问题是当今的管理员并不总是允许任何人那样下载整个网站,这并不是他们真正喜欢的东西……而且,显然,我了解。 该站点可以在Internet上进行查阅,读者可以访问感兴趣的内容,并且站点管理员可以很好地(通过广告)从财务上获得收益,例如访问等。 如果读者将站点下载到他的计算机,则他将不必上网查询以前的帖子。
使用wget下载站点非常简单:
wget -r -k http://www.sitio.com
- -r :这表示将下载整个网站。
- -k :表示已下载站点的链接将转换为在没有Internet的计算机上可见。
现在,当站点管理员对我们造成困难时,事情变得复杂了……
可能存在哪些限制?
我们最常见的发现是只有拥有公认的UserAgent才能访问该网站。 换句话说,该站点将识别出正在下载这么多页面的UserAgent不是“正常”页面之一,因此将关闭访问。
此外,您还可以通过robots.txt文件指定wget(像一堆其他类似的应用)您将无法按照客户端的意愿进行下载,嗯...嗯,站点管理员希望下载,期限😀
如何规避这些限制?
对于第一种情况,我们将建立要wget的UserAgent,我们可以使用 -用户代理,在这里我向您展示如何:
wget --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k
现在,要避开robots.txt,只需排除该文件即可,即让wget下载该网站,而不必关心robots.txt的内容:
wget --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k -e机械手=关闭
现在...还有其他选项或参数可用来进一步欺骗该网站,例如,表明我们是从Google进入该网站的,这里我将最后一行保留所有内容:
wget --header =“接受:文本/ html” --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” --referer = http:/ /www.google.com -r http://www.site.com -e机械手=关闭-k
这样可以吗?
这取决于……您始终必须从站点管理员和读者的两个角度来看它。
一方面,作为管理员,我不希望他们那样获取我网站的HTML副本,它不是为了娱乐,为了所有人的娱乐而在这里在线……我们的目标是拥有有趣的内容可以学习。
但是,另一方面,...有些用户在家中没有互联网,他们希望拥有我们在此处放置的整个“教程”部分...我将自己放在自己的位置(实际上我是因为在家里我没有互联网),并且在计算机上,遇到问题或想要做某事而不能因为您无法访问网络而感到不愉快。
是对还是不对取决于每个管理员,每个人的现实……最让我担心的是wget导致服务器上的资源消耗,但是对于一个好的缓存系统来说,对于服务器来说这应该足够了遭受。
结论
我请求您现在不要开始下载。 DesdeLinux 哈哈哈!!例如,我女朋友让我下载一些Geometry Dash Cheats(类似Geometry Dash Cheats的东西),我不会下载整个网站,但我只会打开所需的页面并将其保存为PDF或HTML什么的,这就是我会向你推荐什么。
如果有教程的话 DesdeLinux 如果您想保存,请将其保存在书签中,以 HTML 或 PDF 形式...但是,对于一两个教程来说,没有必要在服务器上产生过多的流量和消耗 😉
好吧,我希望它对您有用。
有趣的提示。 我不知道你能做到。
这显然是我两次经历的事情,当然是因为它。 虽然,出于速度原因(家庭还是大学),我想以这种方式访问内容。 😛
感谢您的建议。 问候。
对于我们这些没有互联网的人来说很棒。 当然是很好的教程。
非常有趣的文章。
问题:如何对https网站进行处理?
需要在哪里通过用户名和密码进行身份验证,并且该网站的大部分内容都是用Java编写的?
问候和感谢
以及下载保存在哪里?
我回答自己:在个人文件夹中。 但是现在的问题是……您能以某种方式告诉他在哪里下载内容吗?
graciass
我想您首先访问要保存它的文件夹,然后运行wget
查询...,将有类似这样的东西来“克隆”数据库
我有一个好奇心,将这些链接放置到微型利基网站上,您会收到钱吗?
祝福的wget ...这就是我在猪天xD中下载了大量色情内容的方式
好提示。 谢谢
很好,我喜欢关于规避限制的部分。
谢谢你的宝石:
wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e机械手=关闭
wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e机械手=关闭
wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e机械手=关闭
非常有趣的。
wget是这些功能强大的工具之一,只需进行一些终端编程,就可以使自己的Google风格的机器人开始下载页面的内容并将其存储在自己的数据库中,并在以后使用该数据进行任何处理。
我发现这个工具非常有趣,我从没注意过它的参数,我想知道是否可以从需要登录才能进入的“ X”页面下载内容,以及是否在某个地方在“ X”网站上有视频吗,即使它属于不同于“ X”网站的CDN,我也要下载吗?
如果可能的话,站点如何防止这种工具?
的问候!
晚安:
我正在写信给您咨询。 我使用本文的最后一条命令下载了该页面上将近300MB的信息..文件.swf,.js,.html http://www.netacad.com/es 与我的用户一起从我在委内瑞拉的马拉凯(Maracay)进行的一门小课程中学习。
我的问题是…是否可以看到Flash动画?
我输入“全局配置”,它显示的选项都不允许我进行配置。
感谢您的回应。
提前致谢!
我有相同的详细信息,.swf文件下载了一半,如果您设法跳过它,请分享我的信息。 我上次所做的是使用蜘蛛获取所有netacad链接,但.swf仍未按要求完成下载
很好 !!! 谢谢。
您好,谢谢您的短裙。 我正在尝试下载一个受密码邀请的博客,以便无需连接即可在家中阅读。 我使用了该程序,很明显,我拥有博客(wordpress)的密码,但是我不知道如何进行。 可以展示给我吗?
在此先感谢您,并致以最诚挚的问候!
多么棒的帖子!
很棒,对我很有帮助
我登录到带有嵌入式vimeo视频的网站,并且无法下载它们。.似乎vimeo已对其进行保护。 有任何想法吗??