Téléchargez un site entier avec wget même s'il y a des restrictions

Qu'est-ce que wget?

Rien de mieux que Wikipédia pour expliquer en quoi consiste cet outil:

GNU Wget est un outil logiciel gratuit qui permet le téléchargement de contenu à partir de serveurs Web de manière simple. Son nom dérive du World Wide Web (w), et de "get" (en anglais get), cela signifie: obtenir du WWW.

Actuellement, il prend en charge les téléchargements en utilisant les protocoles HTTP, HTTPS et FTP.

Parmi les fonctionnalités les plus remarquables qu'il offre wget il y a la possibilité de télécharger facilement des miroirs complexes de manière récursive, la conversion de liens pour afficher du contenu HTML localement, le support des proxies ...

De wget Nous avons déjà assez parlé ici à DesdeLinux. En fait ya Nous avions vu comment télécharger un site Web complet avec wget, le problème est que de nos jours, les administrateurs ne permettent pas toujours à quiconque de télécharger l'intégralité de leur site Web comme ça, ce n'est pas quelque chose qu'ils aiment vraiment ... et, évidemment, je comprends. Le site est là sur Internet pour le consulter, le lecteur accède aux contenus qui l'intéressent et l'administrateur du site en profite financièrement (par la publicité), comme les visites, etc. Si le lecteur télécharge le site sur son ordinateur, il n'aura pas à se connecter pour consulter un post précédent.

Pour télécharger un site avec wget, c'est aussi simple que:

wget -r -k http://www.sitio.com

  • -r : Cela indique que l'ensemble du site Web sera téléchargé.
  • -k : Cela indique que les liens du site téléchargé seront convertis pour être vus sur des ordinateurs sans internet.

Maintenant, les choses se compliquent lorsque l'administrateur du site nous complique la tâche ...

Quelles restrictions pourraient exister?

Le plus courant que nous ayons pu trouver est que l'accès au site n'est autorisé que si vous disposez d'un UserAgent reconnu. En d'autres termes, le site reconnaîtra que l'UserAgent qui télécharge autant de pages n'est pas l'un des "normaux" et fermera donc l'accès.

Par le biais du fichier robots.txt, vous pouvez également spécifier que wget (comme un tas d'applications similaires) Vous ne pourrez pas télécharger comme le client le souhaite, eh bien ... bon, l'administrateur du site le souhaite, point final 😀

Comment contourner ces restrictions?

Pour le premier cas, nous établirons un UserAgent à wget, nous pouvons le faire avec l'option -Agent utilisateur, ici je vous montre comment:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Maintenant, pour contourner le fichier robots.txt, excluez simplement ce fichier, c'est-à-dire laissez wget télécharger le site et ne vous souciez pas de ce que dit robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Maintenant ... il existe d'autres options ou paramètres que nous pouvons utiliser pour tromper encore plus le site, par exemple, indiquez que nous entrons sur le site depuis Google, ici je laisse la dernière ligne avec tout:

wget --header = "Accepter: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Il n'est pas obligatoire que le site contienne http: // www au début, il peut en être un directement http: // comme par exemple celui-ci Géométrie Dash

Est-ce que ça va?

Cela dépend ... il faut toujours le voir des deux points de vue, de l'administrateur du site mais aussi du lecteur.

D'une part, en tant qu'administrateur, je n'aimerais pas qu'ils prennent une copie HTML de mon site comme ça, c'est ici en ligne pas pour le plaisir, pour le plaisir de tous ... notre objectif est d'avoir un contenu intéressant à votre disposition, que vous pouvez apprendre.

Mais, d'un autre côté ... il y a des utilisateurs qui n'ont pas internet chez eux, qui aimeraient avoir toute la section Tutoriels que nous avons mise ici ... je me mets à leur place (en fait je le suis, car chez moi je n'ai pas internet) et il n'est pas agréable d'être sur l'ordinateur, d'avoir un problème ou de vouloir faire quelque chose et ne le peut pas parce que vous n'avez pas accès au réseau de réseaux.

Que ce soit bien ou mal dépend de chaque administrateur, la réalité de chacun ... ce qui me préoccuperait le plus serait la consommation de ressources que wget provoque sur le serveur, mais avec un bon système de cache cela devrait suffire pour que le serveur ne le fasse pas souffrir.

Internet

Conclusions

Je vous demande de ne pas commencer le téléchargement maintenant. DesdeLinux HAHAHA!! Par exemple, ma petite amie m'a demandé de télécharger des Geometry Dash Cheats (quelque chose comme Geometry Dash Cheats), je ne téléchargerai pas l'intégralité du site Web, mais je vais simplement ouvrir la page souhaitée et l'enregistrer au format PDF ou HTML ou quelque chose comme ça, c'est ce que je vous recommanderais.

Si vous avez un tuto DesdeLinux que vous souhaitez sauvegarder, enregistrez-le dans vos favoris, au format HTML ou PDF... mais, pour un ou deux tutoriels il n'est pas nécessaire de générer un trafic et une consommation excessifs sur le serveur 😉

Eh bien rien, j'espère que c'est utile ... Salutations


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données: Miguel Ángel Gatón
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.

  1.   éliotime3000 dit

    Conseil intéressant. Je ne savais pas que tu pouvais faire ça.

  2.   Emmanuel dit

    C'est expressément ce qui m'est arrivé deux fois, et c'est certainement à cause de cela. Cependant, c'était pour des raisons de vitesse (domicile vs université) que je souhaitais accéder au contenu de cette façon. 😛
    Merci pour le conseil. Cordialement.

  3.   Gerardo dit

    Idéal pour ceux d'entre nous qui n'ont pas Internet. Certainement de bons tutoriels.

  4.   Quinotto dit

    Article très intéressant.
    Question: comment faire pour les sites https?
    Où est-il nécessaire de s'authentifier par nom d'utilisateur et mot de passe et une grande partie du site est-elle écrite en java?
    Salutations et merci

  5.   Gélibassium dit

    et où sont enregistrés les téléchargements?

    1.    Gélibassium dit

      Je me réponds: dans le dossier personnel. Mais maintenant, la question est ... pouvez-vous lui dire où télécharger le contenu?

      graciass

      1.    Daniel dit

        Je suppose que vous accédez d'abord au dossier dans lequel vous souhaitez l'enregistrer, puis que vous exécutez wget

  6.   cristian dit

    requête ... et il y aura quelque chose comme ça pour "cloner" une base de données

  7.   xphx dit

    Je suis curieux, recevez-vous de l'argent pour placer ces liens vers des sites Web de micro-niches?

  8.   Rupert dit

    Béni wget ... c'est comme ça que j'ai téléchargé beaucoup de porno à l'époque de mon cochon xD

  9.   Alundo dit

    bon conseil. Merci

  10.   NULL dit

    Très bien, j'ai aimé la partie sur le contournement des restrictions.

  11.   Franz dit

    Merci pour ce bijou:
    wget –header = »Accepter: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off

    wget –header = »Accepter: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = off

    wget –header = »Accepter: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off

  12.   Palomares dit

    Très intéressant.

  13.   oscar meza dit

    wget est l'un de ces outils ultra-puissants, avec un peu de programmation de terminal, vous pouvez créer votre propre robot de style google pour commencer à télécharger le contenu des pages et le stocker dans votre propre base de données et faire ce que vous voulez plus tard avec ces données.

  14.   Charles G . dit

    Je trouve cet outil très intéressant, je n'avais jamais fait attention à ses paramètres, j'aimerais savoir s'il est possible de télécharger du contenu depuis une page «X» à laquelle il faut être connecté pour entrer, et si c'est quelque part sur ce site «X» y a-t-il une vidéo, est-ce que je la téléchargerais aussi même si elle appartient à un CDN différent du site «X»?

    Si cela était possible, comment un site se protège-t-il contre un tel outil?

    Salutations!

  15.   Eric zanardi dit

    Bonne nuit:

    Je vous écris pour une consultation. J'ai téléchargé avec la dernière commande de cet article, près de 300 Mo d'informations .. fichiers .swf, .js, .html, de la page http://www.netacad.com/es avec mon utilisateur d'un petit cours que j'ai fait à Maracay, Venezuela.

    Ma question est… Sera-t-il possible de voir les animations flash?

    J'entre "Global Configuration" et les options qu'il n'affiche aucune me permettent de configurer.

    J'apprécie toute réponse.

    Merci d'avance!

    1.    ADX dit

      J'ai le même détail, les .swf sont téléchargés à moitié, si vous parvenez à l'ignorer, partagez-moi des informations. Ce que j'ai fait la dernière fois, c'était d'utiliser une araignée pour obtenir tous les liens netacad, mais le .swf ne termine toujours pas le téléchargement comme il se doit

  16.   alexandre.hernandez dit

    très bon !!! Merci.

  17.   Ana dit

    Bonjour, merci pour votre tuto. J'essaye de télécharger un blog où je suis invité, avec un mot de passe, pour pouvoir le lire de chez moi sans connexion. J'utilise ce programme, et évidemment, j'ai le mot de passe du blog (wordpress), mais je ne sais pas comment procéder. Pourrais-tu me montrer?
    Merci d'avance et sincère salutations!

  18.   Fran dit

    quel super article !!!

  19.   Santiago dit

    excellent ça m'a beaucoup servi

  20.   Fran dit

    Je suis connecté à un site Web avec des vidéos vimeo intégrées et il n'y a aucun moyen de les télécharger .. il semble que vimeo les ait protégées. Une idée??