在终端上:使用Wget下载完整的网站

没有比这更好的了 维基百科上的数据 解释此工具的组成:

GNU Wget 是一种免费软件工具,它允许以简单的方式从Web服务器下载内容。 它的名称源自万维网(w)和“ get”(英语中的get),这意味着:来自WWW。

当前,它支持使用HTTP,HTTPS和FTP协议进行下载。

它提供的最杰出的功能之一 wget的 有可能以递归方式轻松下载复杂的镜像,转换链接以本地显示HTML内容,支持代理...

确实,还有其他应用程序可以帮助我们执行此类工作,例如 跟踪 甚至扩展 火狐剪贴簿但是没有什么比终端的简单😀

做魔术

我对这部电影很好奇: “社交网络”,作为 马克·扎克伯格 使用以下短语: «有点魔术«,当我要为Facemash download下载照片时,的确如此, wget的 允许您使用适当的参数进行魔术操作。

让我们看几个例子,让我们从简单使用该工具开始。

要下一页:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

要递归下载整个网站,包括图像和其他类型的数据,请执行以下操作:

$ wget -r https://blog.desdelinux.net/

魔术来了。 以及在 人类,许多网站都会验证浏览器的身份以应用各种限制。 用 威格特 我们可以通过以下方式避免这种情况:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

或者我们也可以在每个页面之间暂停,否则站点所有者可能会意识到我们正在使用以下命令完全下载该站点 威格特.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。

  1.   潘德夫92

    有什么东西可以只下载图像xd?

    1.    勇气

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      我刚刚读了你的想法哈哈哈哈

      1.    潘德夫92

        哈哈oo xd

    2.    KZKG ^ Gaara

      男人 😉

      1.    潘德夫92

        人生苦短,无法读芒。

        1.    KZKG ^ Gaara

          生命太短暂了,无法让大脑充满信息,但是尝试🙂仍然有效

          1.    潘德夫92

            信息只值一半,如果可能的话,我更喜欢用女性,游戏和金钱来填充。

          2.    勇气

            你总是在想女人。 从现在开始,您将像KZKG ^ Gaara一样收听Dadee Yankee,Don Omar和Wisin Y Yandel。

            献身于金钱,这是一生中最重要的事情

            1.    KZKG ^ Gaara

              有些事情比金钱更有价值……例如,历史,有所作为,被记住为世界做出了多少贡献; 而不是去世时你有多少钱😉

              尽量不要成为一个成功的人,而是一个有勇气的人,阿尔伯特·爱因斯坦。


          3.    勇气

            住在桥下的乞be可以不花一分钱吗?

            好吧,不

          4.    勇气

            *具有

          5.    潘德夫92

            勇气,我经历了雷鬼摇摆乐的时代,也不再是几年前的事,那是几年前,我只听日语音乐和古典音乐,并且有了钱……我们正在努力:)。

          6.    潘德夫92

            我不介意记住我的晚会,当我死了时,我会死掉并拧死其他人,因为我什至不知道他们对我的看法。 什么值得记住,但您可以为xD感到自豪。

    3.    hypersayan_x

      要下载特定类型的文件,可以使用过滤器:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      提示:如果您要克隆一个很大的页面,建议您通过诸如tor之类的代理进行操作,因为否则某些页面会连续达到一定数量的请求,从而使您的IP阻塞数小时或数天。
      当我想克隆一个维基时,发生在我身上的另一次。

    4.    迪尔

      我在Firefox中使用的扩展程序仅下载图像; 它被称为“保存图像0.94”

  2.   棕色

    是个问题,我下载的文件保存在哪里? 他们要杀了我吧? 大声笑

    1.    KZKG ^ Gaara

      执行wget get时,文件将下载到您位于终端的文件夹中。

  3.   奥罗斯

    啊,我没有想到wget可以有这么有趣的用途……现在,关于Courage提到的用途……没什么用语😉

  4.   卡洛斯·Xfce

    有人知道是否有WordPress插件阻止Wget下载您的博客吗?

  5.   达泽

    好吧,对我来说很棒! 谢谢

  6.   皮奥拉夫斯基

    很好,让我们尝试看看如何完成,谢谢您的贡献。

  7.   赖氨酸

    尽管我认为自己是一个初学者,但现在对我来说这很容易,我将尝试将其与其他内容混合使用,看看它能带来什么……。

  8.   奥斯瓦尔多

    希望您能对我有所帮助,因为是在3年2012月XNUMX日,星期一

    将要开发的项目如下:

    通过调整href引用来重新定位网站。
    1.-考虑网站,使用wget命令将整个网站下载到本地目录。 并通过您的作者脚本执行以下操作:

    1.1.-为每种内容类型创建一个独立的目录:gif图像,jpeg图像等,avi视频,mpg视频等,mp3音频,wav音频等,Web内容(HTML,javascript等)。

    1.2.-一旦这些内容中的每一个都已重定位,请对站点上每种资源的本地位置进行引用的调整。

    1.3.-激活Web服务器,并将网站备份所在的根目录配置为本地Web服务器的根目录。

    1.4.-注意:wget命令只能与以下选项一起使用:
    –递归
    –网​​域
    –页面要求
    如果出于某些原因需要更多命令,请使用必要的命令。

    1.    KZKG ^ Gaara

      要在这里下载,我想您现在有解决方案了……移动文件并替换路径,我在工作前不得不做类似的事情,我留下了我使用的脚本: http://paste.desdelinux.net/4670

      您可以在修改文件时考虑到文件类型和路径,即网站的.HTML的组成方式。

      这不是100%的解决方案,因为您必须进行一些安排或更改,但是,我保证这是所有工作的70%或80%😉

      1.    奥斯瓦尔多

        谢谢KZKG ^ Gaara对我有很大的帮助

  9.   德卜

    我一直使用httrack。 Firefox的剪贴簿我将尝试使用它,但是我喜欢wget。 谢谢!

  10.   丹尼尔·PZ

    伙计,该命令对我不起作用...这个命令对我来说效果很好:

    wget –random-wait -r -p -e机械手=关闭-U mozilla http://www.example.com

    1.    丹尼尔

      非常感谢! 我将其与Daniel PZ提出的参数一起使用,没有问题🙂

  11.   鲁本·阿尔玛格(Ruben Almaguer)

    谢谢男孩,我在我的Linux小狗上用WGet做到了,但是我不知道如何在终端上做一声问候

  12.   活塞多

    您将页面保存在哪里?

    1.    斧头

      终端打开的位置。 首先,在您的用户根文件夹中,除非您指定其他路径。

  13.   费尔南多

    还下载链接吗? 因此,如果有pdf或其他文档的链接,您还下载吗?

  14.  

    我尝试下载整个博客,我尝试了什么,尽管下载时间很多,但看不到代码或被阻止的内容,但只能读取初始页面,我建议下载该页面我的博客,谢谢劳尔。

  15.   狮子座

    您好,您是否有可能替换html中的链接,以便以后能够像原页面一样浏览下载的页面。

    发生的情况是我下载了该页面,当我从下载的文件中打开该页面时,我没有使用.css或.js,并且页面上的链接将我引导至Internet上的页面。