Avec le terminal: Téléchargez un site web complet avec Wget

Rien de mieux que Wikipédia pour expliquer en quoi consiste cet outil:

GNU Wget est un outil logiciel gratuit qui permet le téléchargement de contenu à partir de serveurs Web de manière simple. Son nom dérive du World Wide Web (w), et de "get" (en anglais get), cela signifie: obtenir du WWW.

Actuellement, il prend en charge les téléchargements en utilisant les protocoles HTTP, HTTPS et FTP.

Parmi les fonctionnalités les plus remarquables qu'il offre wget il y a la possibilité de télécharger facilement des miroirs complexes de manière récursive, la conversion de liens pour afficher du contenu HTML localement, le support des proxies ...

Il est vrai qu'il existe d'autres applications qui nous aident à effectuer ce type de travail comme httrack ou même des extensions pour Firefox comme Scrapbook, mais rien de tel que la simplicité d'un terminal 😀

Faire la magie

J'étais curieux de connaître le film: The Social Network, comme le personnage de mark_zuckerberg utilisez la phrase: «Un peu de magie wget«, Quand j'étais sur le point de télécharger les photos de Facemash 😀 et c'est vrai, wget vous permet de faire de la magie avec les paramètres appropriés.

Regardons quelques exemples, commençons par l'utilisation simple de l'outil.

Pour descendre une page:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Pour télécharger l'intégralité du site de manière récursive, y compris les images et autres types de données:

$ wget -r https://blog.desdelinux.net/

Et voici la magie. Comme ils nous l'expliquent dans l'article de Humains, de nombreux sites vérifient l'identité du navigateur pour appliquer diverses restrictions. Avec Wget nous pouvons contourner cela de la manière suivante:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Ou nous pouvons également faire une pause entre chaque page, sinon le propriétaire du site peut se rendre compte que nous téléchargeons le site complètement avec Wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données: Miguel Ángel Gatón
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.

  1.   pandev92 dit

    Il y a quelque chose à télécharger uniquement les images xd?

    1.    et courage dit

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Que je viens de lire ton esprit hahahaha

      1.    pandev92 dit

        lol oo xd

    2.    KZKG ^ Gaara dit

      homme wget 😉

      1.    pandev92 dit

        La vie est trop courte pour lire les hommes.

        1.    KZKG ^ Gaara dit

          La vie est trop courte pour remplir le cerveau d'informations, mais il est toujours valable d'essayer 🙂

          1.    pandev92 dit

            L'information vaut la moitié, je préfère la remplir de femmes, de jeux et d'argent si possible XD.

          2.    et courage dit

            Tu penses toujours aux femmes. A partir de maintenant, vous écouterez Dadee Yankee, Don Omar et Wisin Y Yandel comme le fait KZKG ^ Gaara.

            Consacrez-vous mieux à l'argent, ce qui est la chose la plus importante dans cette vie

            1.    KZKG ^ Gaara dit

              Il y a des choses qui valent beaucoup plus que de l'argent ... par exemple, être dans l'histoire, faire une différence, se souvenir de combien vous avez réussi à contribuer au monde; et pas pour combien d'argent avais-tu quand tu es mort 😉

              Essayez de ne pas devenir un homme de succès mais un homme de courage, Albert Einsein.


          3.    et courage dit

            Et un mendiant vivant sous un pont peut-il faire cela sans avoir un sou?

            Et bien non

          4.    et courage dit

            *avoir

          5.    pandev92 dit

            Courage, j'avais mon époque reggaeton et enfin plus, c'était il y a des années, je n'écoute que de la musique japonaise et de la musique classique, et avec l'argent… on y travaille :)

          6.    pandev92 dit

            Je me fiche de me souvenir de gara, quand je serai mort, je serai mort et je baiserai les autres, puisque je ne pourrai même pas savoir ce qu'ils pensent de moi. Que vaut-il la peine de retenir mais vous pouvez en être fier xD.

    3.    hypersayan_x dit

      Pour télécharger un type spécifique de fichiers, vous pouvez utiliser des filtres:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      Et un conseil, si vous allez cloner une très grande page, il est recommandé de le faire via un proxy tel que tor, car sinon il y a certaines pages qui ont atteint un certain nombre de requêtes d'affilée, bloquant votre IP pendant plusieurs heures ou jours .
      L'autre fois, cela m'est arrivé lorsque j'ai voulu cloner un wiki.

    4.    mdir dit

      Une extension, que j'utilise dans Firefox, télécharge uniquement des images; ça s'appelle "Enregistrer les images 0.94"

  2.   Brun dit

    eh une question hehe où sont enregistrés les fichiers que je télécharge? Ils vont vouloir me tuer, non? LOL

    1.    KZKG ^ Gaara dit

      Les fichiers sont téléchargés dans le dossier où vous vous trouvez dans le terminal au moment de l'exécution de wget 😉

  3.   auroszx dit

    Ahh, je n'imaginais pas que wget pouvait avoir une utilisation aussi intéressante… Maintenant, en ce qui concerne l'usage que Courage mentionne… Pas de mots 😉

  4.   Carlos-Xfce dit

    Est-ce que quelqu'un sait s'il existe un plug-in WordPress qui empêche Wget de télécharger votre blog?

  5.   Darzee dit

    Et bien ça me va bien !! Je vous remercie

  6.   piolavski dit

    Très bien, essayons de voir comment, merci pour la contribution.

  7.   lyairmg dit

    Bien que je me considère comme un débutant, c'est facile pour moi maintenant je vais essayer de le mélanger avec d'autres choses et voir ce que cela donne….

  8.   Oswaldo dit

    J'espère que vous pourrez m'aider car c'est pour le lundi 3 décembre 2012

    Le projet à développer est le suivant:

    Relocalisation d'un site internet en ajustant les références href.
    1.-Considérant un site Web, téléchargez le site complet dans un répertoire local à l'aide de la commande wget. Et à l'aide d'un script de votre auteur, effectuez les opérations suivantes:

    1.1.-Créer un répertoire indépendant pour chaque type de contenu: images gif, images jpeg, etc., vidéos avi, vidéos mpg, etc., audio mp3, audio wav, etc., contenu Web (HTML, javascript, etc.).

    1.2.-Une fois chacun de ces contenus déplacé, procéder à l'ajustement des références aux emplacements locaux de chaque ressource sur le site.

    1.3.-Activez un serveur Web et configurez le répertoire racine où se trouve la sauvegarde du site Web comme répertoire racine du serveur Web local.

    1.4.-Note: la commande wget ne peut être utilisée qu'avec les options suivantes:
    –Récursif
    -Domaines
    –Page-conditions requises
    Si, pour une raison quelconque, plus de commandes sont nécessaires, utilisez les nécessaires.

    1.    KZKG ^ Gaara dit

      Pour télécharger ici je pense que vous avez la solution dans le post, maintenant ... pour déplacer des fichiers et remplacer les chemins, j'ai dû faire quelque chose comme ça il y a quelque temps à mon travail, je vous laisse le script que j'ai utilisé: http://paste.desdelinux.net/4670

      Vous le modifiez en tenant compte du type de fichier et du chemin, c'est-à-dire comment sont constitués les .HTML de votre site et ainsi de suite.

      Ce n'est pas la solution à 100% car vous devez faire quelques arrangements ou changements mais, je vous garantis que c'est 70 ou 80% de tout le travail 😉

      1.    Oswaldo dit

        Merci KZKG ^ Gaara m'a été d'une grande aide

  9.   dette dit

    J'ai toujours utilisé httrack. Scrapbook pour Firefox Je vais l'essayer, mais j'adore wget. Je vous remercie!

  10.   Daniel PZ dit

    Mec, la commande n'a pas fonctionné pour moi ... celle-ci a bien fonctionné pour moi:

    wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

    1.    Daniel dit

      Merci beaucoup! Je l'ai utilisé avec les paramètres proposés par Daniel PZ et je n'ai eu aucun problème 🙂

  11.   Ruben Almaguer dit

    Merci mon garçon, j'ai fait ça avec WGet sur mon chiot Linux mais je ne savais pas comment le faire dans le terminal. salutations

  12.   tête de mule dit

    où gardez-vous les pages?

    1.    Hache dit

      Où vous avez le terminal ouvert. Au début, dans votre dossier racine utilisateur, sauf si vous indiquez un autre chemin.

  13.   fernando dit

    Téléchargez également les liens? Donc, s'il y a un lien vers un pdf ou un autre document, le téléchargez-vous également?

  14.   rivière dit

    Que puis-je faire pour télécharger l'intégralité de mon blog, j'ai essayé et ce que je ne peux pas voir semble être dans les codes ou bloqué, bien que le téléchargement prenne de nombreuses heures, mais seule la page initiale peut être lue, que je recommande de télécharger mon blog, merci raul.

  15.   Lion dit

    bonjour, un doute il est possible de remplacer les liens au sein du html, pour pouvoir plus tard parcourir la page téléchargée comme s'il s'agissait de l'original.

    Ce qui se passe, c'est que je télécharge la page et quand je l'ai ouverte à partir des fichiers téléchargés, je n'ai pas pris le .css ou .js et les liens sur la page me mènent à la page sur Internet.