即使有限制,也可以使用wget下载整个网站

什么是wget?

没有比这更好的了 维基百科上的数据 解释此工具的组成:

GNU Wget 是一种免费软件工具,它允许以简单的方式从Web服务器下载内容。 它的名称源自万维网(w)和“ get”(英语中的get),这意味着:来自WWW。

当前,它支持使用HTTP,HTTPS和FTP协议进行下载。

它提供的最杰出的功能之一 wget的 有可能以递归方式轻松下载复杂的镜像,转换链接以本地显示HTML内容,支持代理...

De wget的 我们已经在这里谈得够多了 DesdeLinux。 实际上 ya 我们已经看到了如何使用wget下载完整的网站,问题是当今的管理员并不总是允许任何人那样下载整个网站,这并不是他们真正喜欢的东西……而且,显然,我了解。 该站点可以在Internet上进行查阅,读者可以访问感兴趣的内容,并且站点管理员可以很好地(通过广告)从财务上获得收益,例如访问等。 如果读者将站点下载到他的计算机,则他将不必上网查询以前的帖子。

使用wget下载站点非常简单:

wget -r -k http://www.sitio.com

  • -r :这表示将下载整个网站。
  • -k :表示已下载站点的链接将转换为在没有Internet的计算机上可见。

现在,当站点管理员对我们造成困难时,事情变得复杂了……

可能存在哪些限制?

我们最常见的发现是只有拥有公认的UserAgent才能访问该网站。 换句话说,该站点将识别出正在下载这么多页面的UserAgent不是“正常”页面之一,因此将关闭访问。

此外,您还可以通过robots.txt文件指定wget(像一堆其他类似的应用)您将无法按照客户端的意愿进行下载,嗯...嗯,站点管理员希望下载,期限😀

如何规避这些限制?

对于第一种情况,我们将建立要wget的UserAgent,我们可以使用 -用户代理,在这里我向您展示如何:

wget --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k

现在,要避开robots.txt,只需排除该文件即可,即让wget下载该网站,而不必关心robots.txt的内容:

wget --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” -r http://www.site.com -k -e机械手=关闭

现在...还有其他选项或参数可用来进一步欺骗该网站,例如,表明我们是从Google进入该网站的,这里我将最后一行保留所有内容:

wget --header =“接受:文本/ html” --user-agent =“ Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4” --referer = http:/ /www.google.com -r http://www.site.com -e机械手=关闭-k

站点开头不必包含http:// www,这可以是强制性的,也可以直接是http://,例如 几何短跑

这样可以吗?

这取决于……您始终必须从站点管理员和读者的两个角度来看它。

一方面,作为管理员,我不希望他们那样获取我网站的HTML副本,它不是为了娱乐,为了所有人的娱乐而在这里在线……我们的目标是拥有有趣的内容可以学习。

但是,另一方面,...有些用户在家中没有互联网,他们希望拥有我们在此处放置的整个“教程”部分...我将自己放在自己的位置(实际上我是因为在家里我没有互联网),并且在计算机上,遇到问题或想要做某事而不能因为您无法访问网络而感到不愉快。

是对还是不对取决于每个管理员,每个人的现实……最让我担心的是wget导致服务器上的资源消耗,但是对于一个好的缓存系统来说,对于服务器来说这应该足够了遭受。

随

结论

我请求您现在不要开始下载。 DesdeLinux 哈哈哈!!例如,我女朋友让我下载一些Geometry Dash Cheats(类似Geometry Dash Cheats的东西),我不会下载整个网站,但我只会打开所需的页面并将其保存为PDF或HTML什么的,这就是我会向你推荐什么。

如果有教程的话 DesdeLinux 如果您想保存,请将其保存在书签中,以 HTML 或 PDF 形式...但是,对于一两个教程来说,没有必要在服务器上产生过多的流量和消耗 😉

好吧,我希望它对您有用。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。

  1.   埃利奥时间3000

    有趣的提示。 我不知道你能做到。

  2.   灵光

    这显然是我两次经历的事情,当然是因为它。 虽然,出于速度原因(家庭还是大学),我想以这种方式访问​​内容。 😛
    感谢您的建议。 问候。

  3.   赫拉尔

    对于我们这些没有互联网的人来说很棒。 当然是很好的教程。

  4.   昆托

    非常有趣的文章。
    问题:如何对https网站进行处理?
    需要在哪里通过用户名和密码进行身份验证,并且该网站的大部分内容都是用Java编写的?
    问候和感谢

  5.  

    以及下载保存在哪里?

    1.   

      我回答自己:在个人文件夹中。 但是现在的问题是……您能以某种方式告诉他在哪里下载内容吗?

      graciass

      1.    丹尼尔

        我想您首先访问要保存它的文件夹,然后运行wget

  6.   克里斯蒂安

    查询...,将有类似这样的东西来“克隆”数据库

  7.   ph

    我有一个好奇心,将这些链接放置到微型利基网站上,您会收到钱吗?

  8.   鲁珀托

    祝福的wget ...这就是我在猪天xD中下载了大量色情内容的方式

  9.   阿鲁纳多

    好提示。 谢谢

  10.  

    很好,我喜欢关于规避限制的部分。

  11.   弗兰兹

    谢谢你的宝石:
    wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e机械手=关闭

    wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e机械手=关闭

    wget –header =»接受:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31” –referer = http://www.google.com- [R https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e机械手=关闭

  12.   帕洛马雷斯

    非常有趣的。

  13.   奥斯卡·梅萨(Oscar Meza)

    wget是这些功能强大的工具之一,只需进行一些终端编程,就可以使自己的Google风格的机器人开始下载页面的内容并将其存储在自己的数据库中,并在以后使用该数据进行任何处理。

  14.   卡洛斯·G

    我发现这个工具非常有趣,我从没注意过它的参数,我想知道是否可以从需要登录才能进入的“ X”页面下载内容,以及是否在某个地方在“ X”网站上有视频吗,即使它属于不同于“ X”网站的CDN,我也要下载吗?

    如果可能的话,站点如何防止这种工具?

    的问候!

  15.   埃里克·扎纳迪(Erick zanardi)

    晚安:

    我正在写信给您咨询。 我使用本文的最后一条命令下载了该页面上将近300MB的信息..文件.swf,.js,.html http://www.netacad.com/es 与我的用户一起从我在委内瑞拉的马拉凯(Maracay)进行的一门小课程中学习。

    我的问题是…是否可以看到Flash动画?

    我输入“全局配置”,它显示的选项都不允许我进行配置。

    感谢您的回应。

    提前致谢!

    1.    ADX

      我有相同的详细信息,.swf文件下载了一半,如果您设法跳过它,请分享我的信息。 我上次所做的是使用蜘蛛获取所有netacad链接,但.swf仍未按要求完成下载

  16.   亚历杭德罗·埃尔南德斯

    很好 !!! 谢谢。

  17.   安娜

    您好,谢谢您的短裙。 我正在尝试下载一个受密码邀请的博客,以便无需连接即可在家中阅读。 我使用了该程序,很明显,我拥有博客(wordpress)的密码,但是我不知道如何进行。 可以展示给我吗?
    在此先感谢您,并致以最诚挚的问候!

  18.   弗兰

    多么棒的帖子!

  19.   圣地亚哥

    很棒,对我很有帮助

  20.   弗兰

    我登录到带有嵌入式vimeo视频的网站,并且无法下载它们。.似乎vimeo已对其进行保护。 有任何想法吗??