Med terminalen: Ladda ner en komplett webbplats med Wget

Inget bättre än wikipedia för att förklara vad detta verktyg består av:

GNU Wget är ett gratis programverktyg som gör det möjligt att ladda ner innehåll från webbservrar på ett enkelt sätt. Dess namn härstammar från World Wide Web (w) och från "get" (på engelska get) betyder detta: get from the WWW.

För närvarande stöder den nedladdningar med HTTP-, HTTPS- och FTP-protokoll.

Bland de mest framstående funktionerna som den erbjuder wget det finns möjlighet till enkel nedladdning av komplexa speglar på ett rekursivt sätt, konvertering av länkar för att visa HTML-innehåll lokalt, stöd för proxyservrar...

Det är sant att det finns andra applikationer som hjälper oss att utföra denna typ av arbete som httrack eller till och med tillägg för firefox som scrapbook, men inget som är lika enkelt med en terminal 😀

Gör magi

Jag var nyfiken på filmen: The Social Network, som karaktär av Mark Zuckerberg använd frasen: «Lite magisk wget«, När jag skulle ladda ner bilderna för Facemash 😀 och det är sant, wget låter dig göra magi med rätt parametrar.

Låt oss titta på ett par exempel, låt oss börja med den enkla användningen av verktyget.

Så här går du ner på en sida:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

För att ladda ner hela webbplatsen rekursivt, inklusive bilder och andra typer av data:

$ wget -r https://blog.desdelinux.net/

Och här kommer magin. Som de förklarar oss i artikeln Människor, verifierar många webbplatser webbläsarens identitet för att tillämpa olika begränsningar. Med wget vi kan kringgå detta på följande sätt:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Eller så kan vi också pausa mellan varje sida, annars kanske webbplatsägaren inser att vi laddar ner webbplatsen helt med wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.

  1.   pandev92 sade

    Det finns något att ladda ner bara bilderna xd?

    1.    Mod sade

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Att jag bara läste dina tankar hahahaha

      1.    pandev92 sade

        lol oo xd

    2.    KZKG ^ Gaara sade

      man wget 😉

      1.    pandev92 sade

        Livet är för kort för att läsa mans.

        1.    KZKG ^ Gaara sade

          Livet är för kort för att fylla hjärnan med information, men det är fortfarande giltigt att försöka 🙂

          1.    pandev92 sade

            Information är värt hälften, jag föredrar att fylla den med kvinnor, spel och pengar om möjligt XD.

          2.    Mod sade

            Du tänker alltid på kvinnor. Från och med nu kommer du att lyssna på Dadee Yankee, Don Omar och Wisin Y Yandel som KZKG ^ Gaara gör.

            Ägna dig bättre till pengar, vilket är det viktigaste i detta liv

            1.    KZKG ^ Gaara sade

              Det finns saker som är värda mycket mer än pengar ... till exempel att vara i historien, göra skillnad, komma ihåg för hur mycket du lyckades bidra till världen; och inte för hur mycket pengar du hade när du dog 😉

              Försök att inte bli en framgångsrik man utan en modig man, Albert Einsein.


          3.    Mod sade

            Och kan en tiggare som bor under en bro göra det utan att ha ett öre?

            Tja, nej

          4.    Mod sade

            *att ha

          5.    pandev92 sade

            Mod, jag hade min reggaetontid och väl inte längre, det var för år sedan, jag lyssnade bara på japansk musik och klassisk musik, och med pengarna ... jobbar vi med det :)

          6.    pandev92 sade

            Jag bryr mig inte om att komma ihåg, gara, när jag har dött kommer jag att ha dött och skruva resten, eftersom jag inte ens kommer att kunna veta vad de tycker om mig. Vad är det värt att komma ihåg men du kan vara stolt över det xD.

    3.    hypersayan_x sade

      För att ladda ner en viss typ av filer kan du använda filter:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      Och ett tips, om du ska klona en mycket stor sida rekommenderas att du gör det via en proxy som tor, för annars finns det vissa sidor som har nått ett visst antal förfrågningar i rad, vilket blockerar din IP i flera timmar eller dagar.
      Den andra gången som hände mig när jag ville klona en wiki.

    4.    mdir sade

      Ett tillägg, som jag använder i Firefox, laddar bara ner bilder; det heter "Spara bilder 0.94"

  2.   Pardo sade

    eh en fråga hehe var sparas filerna som jag laddar ner? De kommer att vilja döda mig, eller hur? LOL

    1.    KZKG ^ Gaara sade

      Filerna laddas ner till mappen där du befinner dig i terminalen när wget ing körs

  3.   auroszx sade

    Ahh, jag föreställde mig inte att wget skulle kunna ha en så intressant användning ... Nu, angående användningen som Courage nämner ... Inga ord 😉

  4.   Carlos-Xfce sade

    Vet någon om det finns ett WordPress-tillägg som hindrar Wget från att ladda ner din blogg?

  5.   darzee sade

    Tja, det är jättebra för mig !! Tack

  6.   piolavski sade

    Mycket bra, låt oss försöka se hur, tack för bidraget.

  7.   lyairmg sade

    Även om jag betraktar mig själv som nybörjare är det lätt för mig nu, jag kommer att försöka blanda det med andra saker och se vad det ger ....

  8.   Oswaldo sade

    Jag hoppas att du kan hjälpa mig eftersom det är måndagen den 3 december 2012

    Projektet som ska utvecklas är följande:

    Omlokalisering av en webbplats genom att justera href-referenserna.
    1.-Med tanke på en webbplats, ladda ner hela webbplatsen till en lokal katalog med hjälp av kommandot wget. Och genom ett eget skript, utför följande operationer:

    1.1.-Skapa en oberoende katalog för varje typ av innehåll: gif-bilder, jpeg-bilder, etc, avi-videor, mpg-videor, etc, mp3-ljud, wav-ljud, etc., webbinnehåll (HTML, javascript, etc).

    1.2.-När vart och ett av dessa innehåll har flyttats, gör justeringen av referenserna till de lokala platserna för varje resurs på webbplatsen.

    1.3.-Aktivera en webbserver och konfigurera rotkatalogen där säkerhetskopian av webbplatsen finns som rotkatalog för den lokala webbservern.

    1.4.-Obs: wget-kommandot kan endast användas med följande alternativ:
    -Rekursiv
    –Domäner
    –Sidförutsättningar
    Om det av någon anledning behövs fler kommandon, använd de nödvändiga.

    1.    KZKG ^ Gaara sade

      För att ladda ner här tror jag att du har lösningen i inlägget, nu ... för att flytta filer och ersätta banorna, jag var tvungen att göra något liknande för ett tag sedan i mitt arbete, jag lämnar dig skriptet jag använde: http://paste.desdelinux.net/4670

      Du ändrar den med hänsyn till filtypen och sökvägen, det vill säga hur HTML-sidorna på din webbplats består och det.

      Det här är inte 100% -lösningen eftersom du måste göra några arrangemang eller ändringar, men jag garanterar dig att det är 70 eller 80% av allt arbete 😉

      1.    Oswaldo sade

        Tack KZKG ^ Gaara har varit till stor hjälp för mig

  9.   skuld sade

    Jag har alltid använt httrack. Klippbok för Firefox Jag ska prova det, men jag älskar wget. Tack!

  10.   Daniel PZ sade

    Man, kommandot fungerade inte för mig ... det här fungerade bra för mig:

    wget – slumpmässig-vänta -r -p -e robotar = av -U mozilla http://www.example.com

    1.    Daniel sade

      Tack så mycket! Jag använde den med de parametrar som Daniel PZ föreslog och jag hade inga problem 🙂

  11.   Ruben Almaguer sade

    Tack pojke, jag gjorde det med WGet på min Linux-valp men jag visste inte hur jag skulle göra det i terminalen. en hälsning

  12.   kolv sade

    var håller du sidorna?

    1.    yXA sade

      Där du har terminalen öppen. Först i din användarrotmapp, såvida du inte anger en annan sökväg.

  13.   fernando sade

    Ladda ner också länkarna? Så om det finns en länk till en pdf eller ett annat dokument, laddar du ner det också?

  14.   flod sade

    Vad kan jag göra för att ladda ner hela min blogg, jag försökte och vad jag inte ser verkar vara i koder eller blockerade, trots att det tog många timmar att ladda ner men bara den första sidan kan läsas, vilket jag rekommenderar att ladda ner min blogg, tack raul.

  15.   leo sade

    hej, utan tvekan är det möjligt att ersätta länkarna i html, för att senare kunna bläddra i den nedladdade sidan som om den vore originalet.

    Vad som händer är att jag laddar ner sidan och när jag öppnade den från de nedladdade filerna tog jag inte .css eller .js och länkarna på sidan tog mig till sidan på Internet.