Met de terminal: Download een complete website met Wget

2 minuten

Niets beter dan Wikipedia om uit te leggen waaruit deze tool bestaat:

GNU Wget is een gratis softwaretool waarmee u op een eenvoudige manier inhoud van webservers kunt downloaden. De naam is afgeleid van World Wide Web (w), en van "get" (in het Engels get), dit betekent: haal van het WWW.

Momenteel ondersteunt het downloads met behulp van de HTTP-, HTTPS- en FTP-protocollen.

Een van de meest opvallende kenmerken die het biedt wget er is de mogelijkheid om eenvoudig recursief complexe mirrors te downloaden, koppelingen om te zetten om HTML-inhoud lokaal weer te geven, ondersteuning voor proxy's ...

Het is waar dat er andere toepassingen zijn die ons helpen bij het uitvoeren van dit soort werkzaamheden, zoals HTTPrack of zelfs extensies voor Firefox als Plakboek, maar niets zoals de eenvoud van een terminal 😀

De magie doen

Ik was benieuwd naar de film: The Social Network, als het karakter van Mark Zuckerberg gebruik de zin: «Een beetje magie«, Toen ik op het punt stond de foto's voor Facemash te downloaden 😀 en het is waar, wget stelt je in staat om magie te doen met de juiste parameters.

Laten we een paar voorbeelden bekijken, laten we beginnen met het eenvoudige gebruik van de tool.

Om een pagina omlaag te gaan:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Om de hele site recursief te downloaden, inclusief afbeeldingen en andere soorten gegevens:

$ wget -r https://blog.desdelinux.net/

En hier komt de magie. Zoals goed uitgelegd in het artikel van Mensen, verifiëren veel sites de identiteit van de browser om verschillende beperkingen toe te passen. Met wget we kunnen dit op de volgende manier omzeilen:

wget -r -p -U Mozilla https://blog.desdelinux.net/

Of we kunnen ook pauzeren tussen elke pagina, omdat de eigenaar van de site anders beseft dat we de site volledig downloaden met wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/

Laat je reactie achter Antwoord annuleren

pandev92 zei
geleden Tot 12 jaar

Is er iets om alleen de afbeeldingen xd te downloaden?

Reageer op pandev92
1. Moed zei
  geleden Tot 12 jaar
  
  http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio
  
  Dat ik net je gedachten heb gelezen hahahaha
  
  Reageer op Moed
  1. pandev92 zei
    geleden Tot 12 jaar
    
    lol oo xd
    
    Reageer op pandev92
2. KZKG ^ Gaara zei
  geleden Tot 12 jaar
  
  man wat ????
  
  Reageer op KZKG ^ Gaara
  1. pandev92 zei
    geleden Tot 12 jaar
    
    Het leven is te kort om mannen te lezen.
    
    Reageer op pandev92
    1. KZKG ^ Gaara zei
      geleden Tot 12 jaar
      
      Het leven is te kort om de hersenen met informatie te vullen, maar het is nog steeds geldig om 🙂 te proberen
      
      Reageer op KZKG ^ Gaara
      1. pandev92 zei
        geleden Tot 12 jaar
        
        Informatie is de helft waard, ik vul het liever met vrouwen, games en geld indien mogelijk XD.
        
        Reageer op pandev92
      2. Moed zei
        geleden Tot 12 jaar
        
        Je denkt verdomme altijd aan vrouwen. Vanaf nu luister je naar Dadee Yankee, Don Omar en Wisin Y Yandel zoals KZKG ^ Gaara dat doet.
        
        Wijd u beter aan geld, dat is het belangrijkste in dit leven
        
        Reageer op Moed
        
        KZKG ^ Gaara zei
        geleden Tot 12 jaar
        
        Er zijn dingen die veel meer waard zijn dan geld ... bijvoorbeeld in de geschiedenis zijn, een verschil maken, herinnerd worden voor hoeveel je hebt bijgedragen aan de wereld; en niet voor hoeveel geld had je toen je stierf 😉
        
        Probeer geen man van succes te worden, maar een man met moed, Albert Einsein.
      3. Moed zei
        geleden Tot 12 jaar
        
        En kan een bedelaar die onder een brug leeft dat doen zonder een cent te hebben?
        
        Welnee
        
        Reageer op Moed
      4. Moed zei
        geleden Tot 12 jaar
        
        *hebben
        
        Reageer op Moed
      5. pandev92 zei
        geleden Tot 12 jaar
        
        Moed, ik had mijn reggaeton-tijdperk en nou niet meer, dat was jaren geleden, ik luister alleen naar Japanse muziek en klassieke muziek, en met het geld… we werken eraan :).
        
        Reageer op pandev92
      6. pandev92 zei
        geleden Tot 12 jaar
        
        Het kan me niet schelen om herinnerd te worden, gara, als ik gestorven ben, zal ik gestorven zijn en de anderen naaien, want ik zal niet eens kunnen weten wat ze van me denken. Wat is het waard om herinnerd te worden, maar je kunt er trots op zijn xD.
        
        Reageer op pandev92
3. hypersayan_x zei
  geleden Tot 12 jaar
  
  Om een specifiek type bestanden te downloaden, kunt u filters gebruiken:
  
  https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html
  
  En een tip, als je een hele grote pagina gaat klonen, is het aan te raden dat je dit doet via een proxy zoals tor, omdat er anders bepaalde pagina's zijn die een bepaald aantal opeenvolgende verzoeken hebben bereikt, waardoor je IP voor meerdere uren of dagen wordt geblokkeerd .
  De andere keer overkwam dat mij toen ik een wiki wilde klonen.
  
  Reageer op hipersayan_x
4. mdir zei
  geleden Tot 11 jaar
  
  Een extensie, die ik in Firefox gebruik, downloadt alleen afbeeldingen; het heet "Afbeeldingen opslaan 0.94"
  
  Reageer op Mdir
Pardo zei
geleden Tot 12 jaar

eh een vraag hehe waar zijn de bestanden die ik download opgeslagen? Ze zullen me toch willen vermoorden? lol

Reageer op Pardo
1. KZKG ^ Gaara zei
  geleden Tot 12 jaar
  
  De bestanden worden gedownload naar de map waarin u zich in de terminal bevindt bij het uitvoeren van de wget get
  
  Reageer op KZKG ^ Gaara
auroszx zei
geleden Tot 12 jaar

Ahh, ik had niet gedacht dat wget zo'n interessant gebruik zou kunnen hebben ... Nu, met betrekking tot het gebruik dat Courage noemt ... Geen woorden 😉

Reageer op AurosZx
Carlos-Xfce zei
geleden Tot 12 jaar

Weet iemand of er een WordPress-plug-in is waardoor Wget uw blog niet kan downloaden?

Reageer op Carlos-Xfce
Darzee zei
geleden Tot 12 jaar

Nou, het is geweldig voor mij !! Dank je

Reageer op darzee
piolavski zei
geleden Tot 12 jaar

Heel goed, laten we eens kijken hoe, bedankt voor de bijdrage.

Reageer op piolavski
lyairmg zei
geleden Tot 12 jaar

Hoewel ik mezelf als een beginner beschouw, is dit nu gemakkelijk voor mij, ik zal proberen het te mengen met andere dingen en kijken wat het geeft….

Reageer op lyairmg
Oswaldo zei
geleden Tot 11 jaar

Ik hoop dat je me kunt helpen, want het is voor maandag 3 december 2012

Het te ontwikkelen project is het volgende:

Verplaatsing van een website door de href-referenties aan te passen.
1.-Overweeg een website, download de volledige site naar een lokale map met de opdracht wget. En voer door middel van een script van uw auteurschap de volgende bewerkingen uit:

1.1.-Maak een onafhankelijke map voor elk type inhoud: gif-afbeeldingen, jpeg-afbeeldingen, enz., Avi-video's, mpg-video's, enz., Mp3-audio, wav-audio, enz., Webinhoud (HTML, javascript, enz.).

1.2.-Zodra elk van deze inhoud is verplaatst, past u de verwijzingen aan naar de lokale locaties van elke bron op de site.

1.3.-Activeer een webserver en configureer de hoofdmap waar de websiteback-up zich bevindt als de hoofdmap van de lokale webserver.

1.4.-Let op: het wget commando kan alleen gebruikt worden met de volgende opties:
–Recursief
–Domeinen
–Pagina-vereisten
Als om de een of andere reden meer opdrachten nodig zijn, gebruik dan de benodigde.

Reageer op oswaldo
1. KZKG ^ Gaara zei
  geleden Tot 11 jaar
  
  Om hier te downloaden, denk ik dat je de oplossing in de post hebt, nu ... om bestanden te verplaatsen en de paden te vervangen, ik moest zoiets doen een tijdje geleden in mijn werk, ik laat je het script achter dat ik gebruikte: http://paste.desdelinux.net/4670
  
  U wijzigt het rekening houdend met het type bestand en het pad, dat wil zeggen, hoe de .HTML's van uw site worden gevormd en dat.
  
  Dit is niet de 100% oplossing omdat je een aantal afspraken of wijzigingen moet maken, maar ik garandeer je dat het 70 of 80% van al het werk is 😉
  
  Reageer op KZKG ^ Gaara
  1. Oswaldo zei
    geleden Tot 11 jaar
    
    Bedankt KZKG ^ Gaara heeft me enorm geholpen
    
    Reageer op oswaldo
debd zei
geleden Tot 11 jaar

Ik heb altijd HTTPrack gebruikt. Plakboek voor firefox Ik ga het proberen, maar ik ben dol op wget. Dank je!

Reageer op Debd
Daniel PZ zei
geleden Tot 11 jaar

Man, het commando werkte niet voor mij ... deze werkte goed voor mij:

wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

Reageer op Daniel PZ
1. Daniel zei
  geleden Tot 9 jaar
  
  Heel erg bedankt! Ik gebruikte het met de parameters voorgesteld door Daniel PZ en ik had geen problemen 🙂
  
  Reageer op Daniel
Ruben Almaguer zei
geleden Tot 11 jaar

Bedankt jongen, ik deed dat met WGet op mijn Linux-puppy, maar ik wist niet hoe ik het in terminal moest doen. een begroeting

Reageer op Rubén Almaguer
koppig zei
geleden Tot 10 jaar

waar bewaar je de pagina's?

Reageer op pistonudo
1. Hache zei
  geleden Tot 10 jaar
  
  Waar je de terminal open hebt. In eerste instantie in de hoofdmap van uw gebruiker, tenzij u een ander pad opgeeft.
  
  Reageer op Hache
fernando zei
geleden Tot 10 jaar

Ook de links downloaden? Dus als er een link is naar een pdf of een ander document, download je die dan ook?

Reageer op Fernando
rivier zei
geleden Tot 9 jaar

Wat kan ik doen om mijn volledige blog te downloaden? Ik heb het geprobeerd en wat ik niet kan zien, lijkt in codes te staan of is geblokkeerd, ondanks dat het vele uren duurt om het downloaden te nemen, maar alleen de eerste pagina kan worden gelezen, die ik aanbeveel om te downloaden mijn blog, bedankt raul.

Reageer op raul
Leeuw zei
geleden Tot 9 jaar

hallo, het is ongetwijfeld mogelijk om de links in de html te vervangen, om later door de gedownloade pagina te kunnen bladeren alsof het de originele is.

Wat er gebeurt, is dat ik de pagina download en toen ik hem opende vanuit de gedownloade bestanden, nam ik de .css of .js niet en de links op de pagina brengen me naar de pagina op internet.

Reageer op Leo