Met de terminal: Download een complete website met Wget

Niets beter dan Wikipedia om uit te leggen waaruit deze tool bestaat:

GNU Wget is een gratis softwaretool waarmee u op een eenvoudige manier inhoud van webservers kunt downloaden. De naam is afgeleid van World Wide Web (w), en van "get" (in het Engels get), dit betekent: haal van het WWW.

Momenteel ondersteunt het downloads met behulp van de HTTP-, HTTPS- en FTP-protocollen.

Een van de meest opvallende kenmerken die het biedt wget er is de mogelijkheid om eenvoudig recursief complexe mirrors te downloaden, koppelingen om te zetten om HTML-inhoud lokaal weer te geven, ondersteuning voor proxy's ...

Het is waar dat er andere toepassingen zijn die ons helpen bij het uitvoeren van dit soort werkzaamheden, zoals HTTPrack of zelfs extensies voor Firefox als Plakboek, maar niets zoals de eenvoud van een terminal 😀

De magie doen

Ik was benieuwd naar de film: The Social Network, als het karakter van Mark Zuckerberg gebruik de zin: «Een beetje magie«, Toen ik op het punt stond de foto's voor Facemash te downloaden 😀 en het is waar, wget stelt je in staat om magie te doen met de juiste parameters.

Laten we een paar voorbeelden bekijken, laten we beginnen met het eenvoudige gebruik van de tool.

Om een ​​pagina omlaag te gaan:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Om de hele site recursief te downloaden, inclusief afbeeldingen en andere soorten gegevens:

$ wget -r https://blog.desdelinux.net/

En hier komt de magie. Zoals goed uitgelegd in het artikel van Mensen, verifiëren veel sites de identiteit van de browser om verschillende beperkingen toe te passen. Met wget we kunnen dit op de volgende manier omzeilen:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Of we kunnen ook pauzeren tussen elke pagina, omdat de eigenaar van de site anders beseft dat we de site volledig downloaden met wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.

  1.   pandev92 zei

    Is er iets om alleen de afbeeldingen xd te downloaden?

    1.    Moed zei

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Dat ik net je gedachten heb gelezen hahahaha

      1.    pandev92 zei

        lol oo xd

    2.    KZKG ^ Gaara zei

      man wat ????

      1.    pandev92 zei

        Het leven is te kort om mannen te lezen.

        1.    KZKG ^ Gaara zei

          Het leven is te kort om de hersenen met informatie te vullen, maar het is nog steeds geldig om 🙂 te proberen

          1.    pandev92 zei

            Informatie is de helft waard, ik vul het liever met vrouwen, games en geld indien mogelijk XD.

          2.    Moed zei

            Je denkt verdomme altijd aan vrouwen. Vanaf nu luister je naar Dadee Yankee, Don Omar en Wisin Y Yandel zoals KZKG ^ Gaara dat doet.

            Wijd u beter aan geld, dat is het belangrijkste in dit leven

            1.    KZKG ^ Gaara zei

              Er zijn dingen die veel meer waard zijn dan geld ... bijvoorbeeld in de geschiedenis zijn, een verschil maken, herinnerd worden voor hoeveel je hebt bijgedragen aan de wereld; en niet voor hoeveel geld had je toen je stierf 😉

              Probeer geen man van succes te worden, maar een man met moed, Albert Einsein.


          3.    Moed zei

            En kan een bedelaar die onder een brug leeft dat doen zonder een cent te hebben?

            Welnee

          4.    Moed zei

            *hebben

          5.    pandev92 zei

            Moed, ik had mijn reggaeton-tijdperk en nou niet meer, dat was jaren geleden, ik luister alleen naar Japanse muziek en klassieke muziek, en met het geld… we werken eraan :).

          6.    pandev92 zei

            Het kan me niet schelen om herinnerd te worden, gara, als ik gestorven ben, zal ik gestorven zijn en de anderen naaien, want ik zal niet eens kunnen weten wat ze van me denken. Wat is het waard om herinnerd te worden, maar je kunt er trots op zijn xD.

    3.    hypersayan_x zei

      Om een ​​specifiek type bestanden te downloaden, kunt u filters gebruiken:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      En een tip, als je een hele grote pagina gaat klonen, is het aan te raden dat je dit doet via een proxy zoals tor, omdat er anders bepaalde pagina's zijn die een bepaald aantal opeenvolgende verzoeken hebben bereikt, waardoor je IP voor meerdere uren of dagen wordt geblokkeerd .
      De andere keer overkwam dat mij toen ik een wiki wilde klonen.

    4.    mdir zei

      Een extensie, die ik in Firefox gebruik, downloadt alleen afbeeldingen; het heet "Afbeeldingen opslaan 0.94"

  2.   Pardo zei

    eh een vraag hehe waar zijn de bestanden die ik download opgeslagen? Ze zullen me toch willen vermoorden? lol

    1.    KZKG ^ Gaara zei

      De bestanden worden gedownload naar de map waarin u zich in de terminal bevindt bij het uitvoeren van de wget get

  3.   auroszx zei

    Ahh, ik had niet gedacht dat wget zo'n interessant gebruik zou kunnen hebben ... Nu, met betrekking tot het gebruik dat Courage noemt ... Geen woorden 😉

  4.   Carlos-Xfce zei

    Weet iemand of er een WordPress-plug-in is waardoor Wget uw blog niet kan downloaden?

  5.   Darzee zei

    Nou, het is geweldig voor mij !! Dank je

  6.   piolavski zei

    Heel goed, laten we eens kijken hoe, bedankt voor de bijdrage.

  7.   lyairmg zei

    Hoewel ik mezelf als een beginner beschouw, is dit nu gemakkelijk voor mij, ik zal proberen het te mengen met andere dingen en kijken wat het geeft….

  8.   Oswaldo zei

    Ik hoop dat je me kunt helpen, want het is voor maandag 3 december 2012

    Het te ontwikkelen project is het volgende:

    Verplaatsing van een website door de href-referenties aan te passen.
    1.-Overweeg een website, download de volledige site naar een lokale map met de opdracht wget. En voer door middel van een script van uw auteurschap de volgende bewerkingen uit:

    1.1.-Maak een onafhankelijke map voor elk type inhoud: gif-afbeeldingen, jpeg-afbeeldingen, enz., Avi-video's, mpg-video's, enz., Mp3-audio, wav-audio, enz., Webinhoud (HTML, javascript, enz.).

    1.2.-Zodra elk van deze inhoud is verplaatst, past u de verwijzingen aan naar de lokale locaties van elke bron op de site.

    1.3.-Activeer een webserver en configureer de hoofdmap waar de websiteback-up zich bevindt als de hoofdmap van de lokale webserver.

    1.4.-Let op: het wget commando kan alleen gebruikt worden met de volgende opties:
    –Recursief
    –Domeinen
    –Pagina-vereisten
    Als om de een of andere reden meer opdrachten nodig zijn, gebruik dan de benodigde.

    1.    KZKG ^ Gaara zei

      Om hier te downloaden, denk ik dat je de oplossing in de post hebt, nu ... om bestanden te verplaatsen en de paden te vervangen, ik moest zoiets doen een tijdje geleden in mijn werk, ik laat je het script achter dat ik gebruikte: http://paste.desdelinux.net/4670

      U wijzigt het rekening houdend met het type bestand en het pad, dat wil zeggen, hoe de .HTML's van uw site worden gevormd en dat.

      Dit is niet de 100% oplossing omdat je een aantal afspraken of wijzigingen moet maken, maar ik garandeer je dat het 70 of 80% van al het werk is 😉

      1.    Oswaldo zei

        Bedankt KZKG ^ Gaara heeft me enorm geholpen

  9.   debd zei

    Ik heb altijd HTTPrack gebruikt. Plakboek voor firefox Ik ga het proberen, maar ik ben dol op wget. Dank je!

  10.   Daniel PZ zei

    Man, het commando werkte niet voor mij ... deze werkte goed voor mij:

    wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

    1.    Daniel zei

      Heel erg bedankt! Ik gebruikte het met de parameters voorgesteld door Daniel PZ en ik had geen problemen 🙂

  11.   Ruben Almaguer zei

    Bedankt jongen, ik deed dat met WGet op mijn Linux-puppy, maar ik wist niet hoe ik het in terminal moest doen. een begroeting

  12.   koppig zei

    waar bewaar je de pagina's?

    1.    Hache zei

      Waar je de terminal open hebt. In eerste instantie in de hoofdmap van uw gebruiker, tenzij u een ander pad opgeeft.

  13.   fernando zei

    Ook de links downloaden? Dus als er een link is naar een pdf of een ander document, download je die dan ook?

  14.   rivier zei

    Wat kan ik doen om mijn volledige blog te downloaden? Ik heb het geprobeerd en wat ik niet kan zien, lijkt in codes te staan ​​of is geblokkeerd, ondanks dat het vele uren duurt om het downloaden te nemen, maar alleen de eerste pagina kan worden gelezen, die ik aanbeveel om te downloaden mijn blog, bedankt raul.

  15.   Leeuw zei

    hallo, het is ongetwijfeld mogelijk om de links in de html te vervangen, om later door de gedownloade pagina te kunnen bladeren alsof het de originele is.

    Wat er gebeurt, is dat ik de pagina download en toen ik hem opende vanuit de gedownloade bestanden, nam ik de .css of .js niet en de links op de pagina brengen me naar de pagina op internet.