Téléchargez le site Web complet avec wget même s'il y a des restrictions

Téléchargez un site entier avec wget même s'il y a des restrictions

Qu'est-ce que wget?

Rien de mieux que Wikipédia pour expliquer en quoi consiste cet outil:

GNU Wget est un outil logiciel gratuit qui permet le téléchargement de contenu à partir de serveurs Web de manière simple. Son nom dérive du World Wide Web (w), et de "get" (en anglais get), cela signifie: obtenir du WWW.

Actuellement, il prend en charge les téléchargements en utilisant les protocoles HTTP, HTTPS et FTP.

Parmi les fonctionnalités les plus remarquables qu'il offre wget il y a la possibilité de télécharger facilement des miroirs complexes de manière récursive, la conversion de liens pour afficher du contenu HTML localement, le support des proxies ...

De wget Nous avons déjà assez parlé ici à DesdeLinux. En fait ya Nous avions vu comment télécharger un site Web complet avec wget, le problème est que de nos jours, les administrateurs ne permettent pas toujours à quiconque de télécharger l'intégralité de leur site Web comme ça, ce n'est pas quelque chose qu'ils aiment vraiment ... et, évidemment, je comprends. Le site est là sur Internet pour le consulter, le lecteur accède aux contenus qui l'intéressent et l'administrateur du site en profite financièrement (par la publicité), comme les visites, etc. Si le lecteur télécharge le site sur son ordinateur, il n'aura pas à se connecter pour consulter un post précédent.

Pour télécharger un site avec wget, c'est aussi simple que:

wget -r -k http://www.sitio.com

-r : Cela indique que l'ensemble du site Web sera téléchargé.
-k : Cela indique que les liens du site téléchargé seront convertis pour être vus sur des ordinateurs sans internet.

Maintenant, les choses se compliquent lorsque l'administrateur du site nous complique la tâche ...

Quelles restrictions pourraient exister?

Le plus courant que nous ayons pu trouver est que l'accès au site n'est autorisé que si vous disposez d'un UserAgent reconnu. En d'autres termes, le site reconnaîtra que l'UserAgent qui télécharge autant de pages n'est pas l'un des "normaux" et fermera donc l'accès.

Par le biais du fichier robots.txt, vous pouvez également spécifier que wget (comme un tas d'applications similaires) Vous ne pourrez pas télécharger comme le client le souhaite, eh bien ... bon, l'administrateur du site le souhaite, point final 😀

Comment contourner ces restrictions?

Pour le premier cas, nous établirons un UserAgent à wget, nous pouvons le faire avec l'option -Agent utilisateur, ici je vous montre comment:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Maintenant, pour contourner le fichier robots.txt, excluez simplement ce fichier, c'est-à-dire laissez wget télécharger le site et ne vous souciez pas de ce que dit robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Maintenant ... il existe d'autres options ou paramètres que nous pouvons utiliser pour tromper encore plus le site, par exemple, indiquez que nous entrons sur le site depuis Google, ici je laisse la dernière ligne avec tout:

wget --header = "Accepter: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Il n'est pas obligatoire que le site contienne http: // www au début, il peut en être un directement http: // comme par exemple celui-ci Géométrie Dash

Est-ce que ça va?

Cela dépend ... il faut toujours le voir des deux points de vue, de l'administrateur du site mais aussi du lecteur.

D'une part, en tant qu'administrateur, je n'aimerais pas qu'ils prennent une copie HTML de mon site comme ça, c'est ici en ligne pas pour le plaisir, pour le plaisir de tous ... notre objectif est d'avoir un contenu intéressant à votre disposition, que vous pouvez apprendre.

Mais, d'un autre côté ... il y a des utilisateurs qui n'ont pas internet chez eux, qui aimeraient avoir toute la section Tutoriels que nous avons mise ici ... je me mets à leur place (en fait je le suis, car chez moi je n'ai pas internet) et il n'est pas agréable d'être sur l'ordinateur, d'avoir un problème ou de vouloir faire quelque chose et ne le peut pas parce que vous n'avez pas accès au réseau de réseaux.

Que ce soit bien ou mal dépend de chaque administrateur, la réalité de chacun ... ce qui me préoccuperait le plus serait la consommation de ressources que wget provoque sur le serveur, mais avec un bon système de cache cela devrait suffire pour que le serveur ne le fasse pas souffrir.

Conclusions

Je vous demande de ne pas commencer le téléchargement maintenant. DesdeLinux HAHAHA!! Par exemple, ma petite amie m'a demandé de télécharger des Geometry Dash Cheats (quelque chose comme Geometry Dash Cheats), je ne téléchargerai pas l'intégralité du site Web, mais je vais simplement ouvrir la page souhaitée et l'enregistrer au format PDF ou HTML ou quelque chose comme ça, c'est ce que je vous recommanderais.

Si vous avez un tuto DesdeLinux que vous souhaitez sauvegarder, enregistrez-le dans vos favoris, au format HTML ou PDF... mais, pour un ou deux tutoriels il n'est pas nécessaire de générer un trafic et une consommation excessifs sur le serveur 😉

Eh bien rien, j'espère que c'est utile ... Salutations

Laisser un commentaire Annuler la réponse

éliotime3000 dit
il ya 9 ans.

Conseil intéressant. Je ne savais pas que tu pouvais faire ça.

Répondre à eliotime3000
Emmanuel dit
il ya 9 ans.

C'est expressément ce qui m'est arrivé deux fois, et c'est certainement à cause de cela. Cependant, c'était pour des raisons de vitesse (domicile vs université) que je souhaitais accéder au contenu de cette façon. 😛
Merci pour le conseil. Cordialement.

Réponse à Emmanuel
Gerardo dit
il ya 9 ans.

Idéal pour ceux d'entre nous qui n'ont pas Internet. Certainement de bons tutoriels.

Répondre à Gerardo
Quinotto dit
il ya 9 ans.

Article très intéressant.
Question: comment faire pour les sites https?
Où est-il nécessaire de s'authentifier par nom d'utilisateur et mot de passe et une grande partie du site est-elle écrite en java?
Salutations et merci

Répondre à Quinotto
Gélibassium dit
il ya 9 ans.

et où sont enregistrés les téléchargements?

Répondre à Gelibasio
1. Gélibassium dit
  il ya 9 ans.
  
  Je me réponds: dans le dossier personnel. Mais maintenant, la question est ... pouvez-vous lui dire où télécharger le contenu?
  
  graciass
  
  Répondre à Gelibasio
  1. Daniel dit
    il ya 9 ans.
    
    Je suppose que vous accédez d'abord au dossier dans lequel vous souhaitez l'enregistrer, puis que vous exécutez wget
    
    Répondre à Daniel
cristian dit
il ya 9 ans.

requête ... et il y aura quelque chose comme ça pour "cloner" une base de données

Répondre à Cristian
xphx dit
il ya 9 ans.

Je suis curieux, recevez-vous de l'argent pour placer ces liens vers des sites Web de micro-niches?

Répondre à xphnx
Rupert dit
il ya 9 ans.

Béni wget ... c'est comme ça que j'ai téléchargé beaucoup de porno à l'époque de mon cochon xD

Répondre à Ruperto
Alundo dit
il ya 9 ans.

bon conseil. Merci

Répondre à alunado
NULL dit
il ya 9 ans.

Très bien, j'ai aimé la partie sur le contournement des restrictions.

Répondre à NULL
Franz dit
il ya 9 ans.

Merci pour ce bijou:
wget –header = »Accepter: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off

wget –header = »Accepter: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = off

wget –header = »Accepter: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off

Répondre à Franz
Palomares dit
il ya 9 ans.

Très intéressant.

Répondre à Palomares
oscar meza dit
il ya 9 ans.

wget est l'un de ces outils ultra-puissants, avec un peu de programmation de terminal, vous pouvez créer votre propre robot de style google pour commencer à télécharger le contenu des pages et le stocker dans votre propre base de données et faire ce que vous voulez plus tard avec ces données.

Répondre à Oscar Meza
Charles G . dit
il ya 9 ans.

Je trouve cet outil très intéressant, je n'avais jamais fait attention à ses paramètres, j'aimerais savoir s'il est possible de télécharger du contenu depuis une page «X» à laquelle il faut être connecté pour entrer, et si c'est quelque part sur ce site «X» y a-t-il une vidéo, est-ce que je la téléchargerais aussi même si elle appartient à un CDN différent du site «X»?

Si cela était possible, comment un site se protège-t-il contre un tel outil?

Salutations!

Répondre à Carlos G
Eric zanardi dit
il ya 9 ans.

Bonne nuit:

Je vous écris pour une consultation. J'ai téléchargé avec la dernière commande de cet article, près de 300 Mo d'informations .. fichiers .swf, .js, .html, de la page http://www.netacad.com/es avec mon utilisateur d'un petit cours que j'ai fait à Maracay, Venezuela.

Ma question est… Sera-t-il possible de voir les animations flash?

J'entre "Global Configuration" et les options qu'il n'affiche aucune me permettent de configurer.

J'apprécie toute réponse.

Merci d'avance!

Répondre à Erick Zanardi
1. ADX dit
  il ya 9 ans.
  
  J'ai le même détail, les .swf sont téléchargés à moitié, si vous parvenez à l'ignorer, partagez-moi des informations. Ce que j'ai fait la dernière fois, c'était d'utiliser une araignée pour obtenir tous les liens netacad, mais le .swf ne termine toujours pas le téléchargement comme il se doit
  
  Répondre à ADX
alexandre.hernandez dit
il ya 8 ans.

très bon !!! Merci.

Répondre à alejandro.hernandez
Ana dit
il ya 8 ans.

Bonjour, merci pour votre tuto. J'essaye de télécharger un blog où je suis invité, avec un mot de passe, pour pouvoir le lire de chez moi sans connexion. J'utilise ce programme, et évidemment, j'ai le mot de passe du blog (wordpress), mais je ne sais pas comment procéder. Pourrais-tu me montrer?
Merci d'avance et sincère salutations!

Répondre à Ana
Fran dit
il ya 7 ans.

quel super article !!!

Répondre à Fran
Santiago dit
il ya 7 ans.

excellent ça m'a beaucoup servi

Répondre à Santiago
Fran dit
il ya 7 ans.

Je suis connecté à un site Web avec des vidéos vimeo intégrées et il n'y a aucun moyen de les télécharger .. il semble que vimeo les ait protégées. Une idée??

Répondre à Fran