Avec le terminal: Téléchargez un site web complet avec Wget

Minutes 2

Rien de mieux que Wikipédia pour expliquer en quoi consiste cet outil:

GNU Wget est un outil logiciel gratuit qui permet le téléchargement de contenu à partir de serveurs Web de manière simple. Son nom dérive du World Wide Web (w), et de "get" (en anglais get), cela signifie: obtenir du WWW.

Actuellement, il prend en charge les téléchargements en utilisant les protocoles HTTP, HTTPS et FTP.

Parmi les fonctionnalités les plus remarquables qu'il offre wget il y a la possibilité de télécharger facilement des miroirs complexes de manière récursive, la conversion de liens pour afficher du contenu HTML localement, le support des proxies ...

Il est vrai qu'il existe d'autres applications qui nous aident à effectuer ce type de travail comme httrack ou même des extensions pour Firefox comme Scrapbook, mais rien de tel que la simplicité d'un terminal 😀

Faire la magie

J'étais curieux de connaître le film: The Social Network, comme le personnage de mark_zuckerberg utilisez la phrase: «Un peu de magie wget«, Quand j'étais sur le point de télécharger les photos de Facemash 😀 et c'est vrai, wget vous permet de faire de la magie avec les paramètres appropriés.

Regardons quelques exemples, commençons par l'utilisation simple de l'outil.

Pour descendre une page:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Pour télécharger l'intégralité du site de manière récursive, y compris les images et autres types de données:

$ wget -r https://blog.desdelinux.net/

Et voici la magie. Comme ils nous l'expliquent dans l'article de Humains, de nombreux sites vérifient l'identité du navigateur pour appliquer diverses restrictions. Avec Wget nous pouvons contourner cela de la manière suivante:

wget -r -p -U Mozilla https://blog.desdelinux.net/

Ou nous pouvons également faire une pause entre chaque page, sinon le propriétaire du site peut se rendre compte que nous téléchargeons le site complètement avec Wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/

Laisser un commentaire Annuler la réponse

pandev92 dit
il ya 12 ans.

Il y a quelque chose à télécharger uniquement les images xd?

Répondre à pandev92
1. et courage dit
  il ya 12 ans.
  
  http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio
  
  Que je viens de lire ton esprit hahahaha
  
  Répondre à Courage
  1. pandev92 dit
    il ya 12 ans.
    
    lol oo xd
    
    Répondre à pandev92
2. KZKG ^ Gaara dit
  il ya 12 ans.
  
  homme wget 😉
  
  Répondre à KZKG ^ Gaara
  1. pandev92 dit
    il ya 12 ans.
    
    La vie est trop courte pour lire les hommes.
    
    Répondre à pandev92
    1. KZKG ^ Gaara dit
      il ya 12 ans.
      
      La vie est trop courte pour remplir le cerveau d'informations, mais il est toujours valable d'essayer 🙂
      
      Répondre à KZKG ^ Gaara
      1. pandev92 dit
        il ya 12 ans.
        
        L'information vaut la moitié, je préfère la remplir de femmes, de jeux et d'argent si possible XD.
        
        Répondre à pandev92
      2. et courage dit
        il ya 12 ans.
        
        Tu penses toujours aux femmes. A partir de maintenant, vous écouterez Dadee Yankee, Don Omar et Wisin Y Yandel comme le fait KZKG ^ Gaara.
        
        Consacrez-vous mieux à l'argent, ce qui est la chose la plus importante dans cette vie
        
        Répondre à Courage
        
        KZKG ^ Gaara dit
        il ya 12 ans.
        
        Il y a des choses qui valent beaucoup plus que de l'argent ... par exemple, être dans l'histoire, faire une différence, se souvenir de combien vous avez réussi à contribuer au monde; et pas pour combien d'argent avais-tu quand tu es mort 😉
        
        Essayez de ne pas devenir un homme de succès mais un homme de courage, Albert Einsein.
      3. et courage dit
        il ya 12 ans.
        
        Et un mendiant vivant sous un pont peut-il faire cela sans avoir un sou?
        
        Et bien non
        
        Répondre à Courage
      4. et courage dit
        il ya 12 ans.
        
        *avoir
        
        Répondre à Courage
      5. pandev92 dit
        il ya 12 ans.
        
        Courage, j'avais mon époque reggaeton et enfin plus, c'était il y a des années, je n'écoute que de la musique japonaise et de la musique classique, et avec l'argent… on y travaille :)
        
        Répondre à pandev92
      6. pandev92 dit
        il ya 12 ans.
        
        Je me fiche de me souvenir de gara, quand je serai mort, je serai mort et je baiserai les autres, puisque je ne pourrai même pas savoir ce qu'ils pensent de moi. Que vaut-il la peine de retenir mais vous pouvez en être fier xD.
        
        Répondre à pandev92
3. hypersayan_x dit
  il ya 12 ans.
  
  Pour télécharger un type spécifique de fichiers, vous pouvez utiliser des filtres:
  
  https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html
  
  Et un conseil, si vous allez cloner une très grande page, il est recommandé de le faire via un proxy tel que tor, car sinon il y a certaines pages qui ont atteint un certain nombre de requêtes d'affilée, bloquant votre IP pendant plusieurs heures ou jours .
  L'autre fois, cela m'est arrivé lorsque j'ai voulu cloner un wiki.
  
  Répondre à hipersayan_x
4. mdir dit
  il ya 11 ans.
  
  Une extension, que j'utilise dans Firefox, télécharge uniquement des images; ça s'appelle "Enregistrer les images 0.94"
  
  Répondre à Mdir
Brun dit
il ya 12 ans.

eh une question hehe où sont enregistrés les fichiers que je télécharge? Ils vont vouloir me tuer, non? LOL

Répondre à Pardo
1. KZKG ^ Gaara dit
  il ya 12 ans.
  
  Les fichiers sont téléchargés dans le dossier où vous vous trouvez dans le terminal au moment de l'exécution de wget 😉
  
  Répondre à KZKG ^ Gaara
auroszx dit
il ya 12 ans.

Ahh, je n'imaginais pas que wget pouvait avoir une utilisation aussi intéressante… Maintenant, en ce qui concerne l'usage que Courage mentionne… Pas de mots 😉

Répondre à AurosZx
Carlos-Xfce dit
il ya 12 ans.

Est-ce que quelqu'un sait s'il existe un plug-in WordPress qui empêche Wget de télécharger votre blog?

Répondre à Carlos-Xfce
Darzee dit
il ya 12 ans.

Et bien ça me va bien !! Je vous remercie

Répondre à darzee
piolavski dit
il ya 12 ans.

Très bien, essayons de voir comment, merci pour la contribution.

Répondre à piolavski
lyairmg dit
il ya 12 ans.

Bien que je me considère comme un débutant, c'est facile pour moi maintenant je vais essayer de le mélanger avec d'autres choses et voir ce que cela donne….

Répondre à lyairmg
Oswaldo dit
il ya 11 ans.

J'espère que vous pourrez m'aider car c'est pour le lundi 3 décembre 2012

Le projet à développer est le suivant:

Relocalisation d'un site internet en ajustant les références href.
1.-Considérant un site Web, téléchargez le site complet dans un répertoire local à l'aide de la commande wget. Et à l'aide d'un script de votre auteur, effectuez les opérations suivantes:

1.1.-Créer un répertoire indépendant pour chaque type de contenu: images gif, images jpeg, etc., vidéos avi, vidéos mpg, etc., audio mp3, audio wav, etc., contenu Web (HTML, javascript, etc.).

1.2.-Une fois chacun de ces contenus déplacé, procéder à l'ajustement des références aux emplacements locaux de chaque ressource sur le site.

1.3.-Activez un serveur Web et configurez le répertoire racine où se trouve la sauvegarde du site Web comme répertoire racine du serveur Web local.

1.4.-Note: la commande wget ne peut être utilisée qu'avec les options suivantes:
–Récursif
-Domaines
–Page-conditions requises
Si, pour une raison quelconque, plus de commandes sont nécessaires, utilisez les nécessaires.

Répondre à oswaldo
1. KZKG ^ Gaara dit
  il ya 11 ans.
  
  Pour télécharger ici je pense que vous avez la solution dans le post, maintenant ... pour déplacer des fichiers et remplacer les chemins, j'ai dû faire quelque chose comme ça il y a quelque temps à mon travail, je vous laisse le script que j'ai utilisé: http://paste.desdelinux.net/4670
  
  Vous le modifiez en tenant compte du type de fichier et du chemin, c'est-à-dire comment sont constitués les .HTML de votre site et ainsi de suite.
  
  Ce n'est pas la solution à 100% car vous devez faire quelques arrangements ou changements mais, je vous garantis que c'est 70 ou 80% de tout le travail 😉
  
  Répondre à KZKG ^ Gaara
  1. Oswaldo dit
    il ya 11 ans.
    
    Merci KZKG ^ Gaara m'a été d'une grande aide
    
    Répondre à oswaldo
dette dit
il ya 11 ans.

J'ai toujours utilisé httrack. Scrapbook pour Firefox Je vais l'essayer, mais j'adore wget. Je vous remercie!

Répondre à Debd
Daniel PZ dit
il ya 11 ans.

Mec, la commande n'a pas fonctionné pour moi ... celle-ci a bien fonctionné pour moi:

wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

Répondre à Daniel PZ
1. Daniel dit
  il ya 9 ans.
  
  Merci beaucoup! Je l'ai utilisé avec les paramètres proposés par Daniel PZ et je n'ai eu aucun problème 🙂
  
  Répondre à Daniel
Ruben Almaguer dit
il ya 11 ans.

Merci mon garçon, j'ai fait ça avec WGet sur mon chiot Linux mais je ne savais pas comment le faire dans le terminal. salutations

Répondre à Rubén Almaguer
tête de mule dit
il ya 10 ans.

où gardez-vous les pages?

Répondre à pistonudo
1. Hache dit
  il ya 10 ans.
  
  Où vous avez le terminal ouvert. Au début, dans votre dossier racine utilisateur, sauf si vous indiquez un autre chemin.
  
  Répondre à Hache
fernando dit
il ya 10 ans.

Téléchargez également les liens? Donc, s'il y a un lien vers un pdf ou un autre document, le téléchargez-vous également?

Répondre à Fernando
rivière dit
il ya 9 ans.

Que puis-je faire pour télécharger l'intégralité de mon blog, j'ai essayé et ce que je ne peux pas voir semble être dans les codes ou bloqué, bien que le téléchargement prenne de nombreuses heures, mais seule la page initiale peut être lue, que je recommande de télécharger mon blog, merci raul.

Répondre à raul
Lion dit
il ya 9 ans.

bonjour, un doute il est possible de remplacer les liens au sein du html, pour pouvoir plus tard parcourir la page téléchargée comme s'il s'agissait de l'original.

Ce qui se passe, c'est que je télécharge la page et quand je l'ai ouverte à partir des fichiers téléchargés, je n'ai pas pris le .css ou .js et les liens sur la page me mènent à la page sur Internet.

Répondre à Leo