Qu'est-ce que wget?
Rien de mieux que Wikipédia pour expliquer en quoi consiste cet outil:
GNU Wget est un outil logiciel gratuit qui permet le téléchargement de contenu à partir de serveurs Web de manière simple. Son nom dérive du World Wide Web (w), et de "get" (en anglais get), cela signifie: obtenir du WWW.
Actuellement, il prend en charge les téléchargements en utilisant les protocoles HTTP, HTTPS et FTP.
Parmi les fonctionnalités les plus remarquables qu'il offre wget il y a la possibilité de télécharger facilement des miroirs complexes de manière récursive, la conversion de liens pour afficher du contenu HTML localement, le support des proxies ...
De wget Nous avons déjà assez parlé ici à DesdeLinux. En fait ya Nous avions vu comment télécharger un site Web complet avec wget, le problème est que de nos jours, les administrateurs ne permettent pas toujours à quiconque de télécharger l'intégralité de leur site Web comme ça, ce n'est pas quelque chose qu'ils aiment vraiment ... et, évidemment, je comprends. Le site est là sur Internet pour le consulter, le lecteur accède aux contenus qui l'intéressent et l'administrateur du site en profite financièrement (par la publicité), comme les visites, etc. Si le lecteur télécharge le site sur son ordinateur, il n'aura pas à se connecter pour consulter un post précédent.
Pour télécharger un site avec wget, c'est aussi simple que:
wget -r -k http://www.sitio.com
- -r : Cela indique que l'ensemble du site Web sera téléchargé.
- -k : Cela indique que les liens du site téléchargé seront convertis pour être vus sur des ordinateurs sans internet.
Maintenant, les choses se compliquent lorsque l'administrateur du site nous complique la tâche ...
Quelles restrictions pourraient exister?
Le plus courant que nous ayons pu trouver est que l'accès au site n'est autorisé que si vous disposez d'un UserAgent reconnu. En d'autres termes, le site reconnaîtra que l'UserAgent qui télécharge autant de pages n'est pas l'un des "normaux" et fermera donc l'accès.
Par le biais du fichier robots.txt, vous pouvez également spécifier que wget (comme un tas d'applications similaires) Vous ne pourrez pas télécharger comme le client le souhaite, eh bien ... bon, l'administrateur du site le souhaite, point final 😀
Comment contourner ces restrictions?
Pour le premier cas, nous établirons un UserAgent à wget, nous pouvons le faire avec l'option -Agent utilisateur, ici je vous montre comment:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Maintenant, pour contourner le fichier robots.txt, excluez simplement ce fichier, c'est-à-dire laissez wget télécharger le site et ne vous souciez pas de ce que dit robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off
Maintenant ... il existe d'autres options ou paramètres que nous pouvons utiliser pour tromper encore plus le site, par exemple, indiquez que nous entrons sur le site depuis Google, ici je laisse la dernière ligne avec tout:
wget --header = "Accepter: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k
Est-ce que ça va?
Cela dépend ... il faut toujours le voir des deux points de vue, de l'administrateur du site mais aussi du lecteur.
D'une part, en tant qu'administrateur, je n'aimerais pas qu'ils prennent une copie HTML de mon site comme ça, c'est ici en ligne pas pour le plaisir, pour le plaisir de tous ... notre objectif est d'avoir un contenu intéressant à votre disposition, que vous pouvez apprendre.
Mais, d'un autre côté ... il y a des utilisateurs qui n'ont pas internet chez eux, qui aimeraient avoir toute la section Tutoriels que nous avons mise ici ... je me mets à leur place (en fait je le suis, car chez moi je n'ai pas internet) et il n'est pas agréable d'être sur l'ordinateur, d'avoir un problème ou de vouloir faire quelque chose et ne le peut pas parce que vous n'avez pas accès au réseau de réseaux.
Que ce soit bien ou mal dépend de chaque administrateur, la réalité de chacun ... ce qui me préoccuperait le plus serait la consommation de ressources que wget provoque sur le serveur, mais avec un bon système de cache cela devrait suffire pour que le serveur ne le fasse pas souffrir.
Conclusions
Je vous demande de ne pas commencer le téléchargement maintenant. DesdeLinux HAHAHA!! Par exemple, ma petite amie m'a demandé de télécharger des Geometry Dash Cheats (quelque chose comme Geometry Dash Cheats), je ne téléchargerai pas l'intégralité du site Web, mais je vais simplement ouvrir la page souhaitée et l'enregistrer au format PDF ou HTML ou quelque chose comme ça, c'est ce que je vous recommanderais.
Si vous avez un tuto DesdeLinux que vous souhaitez sauvegarder, enregistrez-le dans vos favoris, au format HTML ou PDF... mais, pour un ou deux tutoriels il n'est pas nécessaire de générer un trafic et une consommation excessifs sur le serveur 😉
Eh bien rien, j'espère que c'est utile ... Salutations
Conseil intéressant. Je ne savais pas que tu pouvais faire ça.
C'est expressément ce qui m'est arrivé deux fois, et c'est certainement à cause de cela. Cependant, c'était pour des raisons de vitesse (domicile vs université) que je souhaitais accéder au contenu de cette façon. 😛
Merci pour le conseil. Cordialement.
Idéal pour ceux d'entre nous qui n'ont pas Internet. Certainement de bons tutoriels.
Article très intéressant.
Question: comment faire pour les sites https?
Où est-il nécessaire de s'authentifier par nom d'utilisateur et mot de passe et une grande partie du site est-elle écrite en java?
Salutations et merci
et où sont enregistrés les téléchargements?
Je me réponds: dans le dossier personnel. Mais maintenant, la question est ... pouvez-vous lui dire où télécharger le contenu?
graciass
Je suppose que vous accédez d'abord au dossier dans lequel vous souhaitez l'enregistrer, puis que vous exécutez wget
requête ... et il y aura quelque chose comme ça pour "cloner" une base de données
Je suis curieux, recevez-vous de l'argent pour placer ces liens vers des sites Web de micro-niches?
Béni wget ... c'est comme ça que j'ai téléchargé beaucoup de porno à l'époque de mon cochon xD
bon conseil. Merci
Très bien, j'ai aimé la partie sur le contournement des restrictions.
Merci pour ce bijou:
wget –header = »Accepter: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off
wget –header = »Accepter: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = off
wget –header = »Accepter: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off
Très intéressant.
wget est l'un de ces outils ultra-puissants, avec un peu de programmation de terminal, vous pouvez créer votre propre robot de style google pour commencer à télécharger le contenu des pages et le stocker dans votre propre base de données et faire ce que vous voulez plus tard avec ces données.
Je trouve cet outil très intéressant, je n'avais jamais fait attention à ses paramètres, j'aimerais savoir s'il est possible de télécharger du contenu depuis une page «X» à laquelle il faut être connecté pour entrer, et si c'est quelque part sur ce site «X» y a-t-il une vidéo, est-ce que je la téléchargerais aussi même si elle appartient à un CDN différent du site «X»?
Si cela était possible, comment un site se protège-t-il contre un tel outil?
Salutations!
Bonne nuit:
Je vous écris pour une consultation. J'ai téléchargé avec la dernière commande de cet article, près de 300 Mo d'informations .. fichiers .swf, .js, .html, de la page http://www.netacad.com/es avec mon utilisateur d'un petit cours que j'ai fait à Maracay, Venezuela.
Ma question est… Sera-t-il possible de voir les animations flash?
J'entre "Global Configuration" et les options qu'il n'affiche aucune me permettent de configurer.
J'apprécie toute réponse.
Merci d'avance!
J'ai le même détail, les .swf sont téléchargés à moitié, si vous parvenez à l'ignorer, partagez-moi des informations. Ce que j'ai fait la dernière fois, c'était d'utiliser une araignée pour obtenir tous les liens netacad, mais le .swf ne termine toujours pas le téléchargement comme il se doit
très bon !!! Merci.
Bonjour, merci pour votre tuto. J'essaye de télécharger un blog où je suis invité, avec un mot de passe, pour pouvoir le lire de chez moi sans connexion. J'utilise ce programme, et évidemment, j'ai le mot de passe du blog (wordpress), mais je ne sais pas comment procéder. Pourrais-tu me montrer?
Merci d'avance et sincère salutations!
quel super article !!!
excellent ça m'a beaucoup servi
Je suis connecté à un site Web avec des vidéos vimeo intégrées et il n'y a aucun moyen de les télécharger .. il semble que vimeo les ait protégées. Une idée??