Med terminalen: Download et komplet websted med Wget

Intet bedre end Wikipedia at forklare, hvad dette værktøj består af:

GNU Wget er et gratis softwareværktøj, der muliggør download af indhold fra webservere på en enkel måde. Navnet stammer fra World Wide Web (w), og fra "get" (på engelsk get) betyder det: get from the WWW.

I øjeblikket understøtter det downloads ved hjælp af HTTP-, HTTPS- og FTP-protokollerne.

Blandt de mest fremragende funktioner, den tilbyder wget der er mulighed for let download af komplekse spejle rekursivt, konvertering af links til visning af HTML-indhold lokalt, understøttelse af proxyer ...

Det er rigtigt, at der er andre applikationer, der hjælper os med at udføre denne type arbejde som f.eks httrack eller endda udvidelser til Firefox som Scrapbog, men intet som enkelheden ved en terminal 😀

Gør magien

Jeg var nysgerrig efter filmen: The Social Network, som karakter af Mark Zuckerberg brug sætningen: «En smule magisk wget«, Da jeg var ved at downloade fotos til Facemash 😀 og det er sandt, wget giver dig mulighed for at trylle med de relevante parametre.

Lad os se på et par eksempler, lad os starte med den enkle brug af værktøjet.

Sådan går du ned på en side:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Sådan downloades hele webstedet rekursivt, inklusive billeder og andre typer data:

$ wget -r https://blog.desdelinux.net/

Og her kommer magien. Som forklaret i artiklen fra Mennesker, mange sider verificerer browserens identitet for at anvende forskellige begrænsninger. Med wget vi kan omgå dette på følgende måde:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Eller vi kan også holde pause mellem hver side, da ellers kan ejeren af ​​webstedet muligvis indse, at vi downloader webstedet helt med wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.

  1.   pandev92 sagde han

    Der er noget at kun downloade billederne xd?

    1.    Courage sagde han

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      At jeg lige har læst dit sind hahahaha

      1.    pandev92 sagde han

        lol oo xd

    2.    KZKG ^ Gaara sagde han

      mand wget 😉

      1.    pandev92 sagde han

        Livet er for kort til at læse mænd.

        1.    KZKG ^ Gaara sagde han

          Livet er for kort til at fylde hjernen med information, men det er stadig gyldigt at prøve 🙂

          1.    pandev92 sagde han

            Information er halvdelen værd, jeg foretrækker at udfylde den med kvinder, spil og penge, hvis det er muligt XD.

          2.    Courage sagde han

            Du tænker altid på kvinder. Fra nu af vil du lytte til Dadee Yankee, Don Omar og Wisin Y Yandel som KZKG ^ Gaara gør.

            Dediker dig bedre til penge, hvilket er det vigtigste i dette liv

            1.    KZKG ^ Gaara sagde han

              Der er ting, der er meget mere værd end penge ... for eksempel at være i historien, gøre en forskel og blive husket for hvor meget du formåede at bidrage til verden; og ikke for hvor mange penge du havde, da du døde 😉

              Prøv ikke at blive en mand med succes, men en mand med mod, Albert Einsein.


          3.    Courage sagde han

            Og kan en tigger, der bor under en bro, gøre det uden at have en krone?

            Altså nej

          4.    Courage sagde han

            *at have

          5.    pandev92 sagde han

            Mod, jeg havde min reggaeton-æra og godt ikke længere, det var for mange år siden, jeg lytter kun til japansk musik og klassisk musik, og med pengene… arbejder vi på det :).

          6.    pandev92 sagde han

            Jeg er ligeglad med at blive husket, gara, når jeg vil være død, vil jeg være død og skrue de andre, da jeg ikke engang vil være i stand til at vide, hvad de synes om mig. Hvad er det værd at blive husket, men du kan være stolt af det xD.

    3.    hypersayan_x sagde han

      For at downloade en bestemt filtype kan du bruge filtre:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      Og et tip, hvis du vil klone en meget stor side, anbefales det, at du gør det via en proxy som f.eks. Tor, for ellers er der visse sider, der har nået et bestemt antal på hinanden følgende anmodninger, hvilket blokerer din IP i flere timer eller dage .
      Den anden gang skete der med mig, da jeg ville klone en wiki.

    4.    mdir sagde han

      En udvidelse, som jeg bruger i Firefox, downloader kun billeder; det hedder "Gem billeder 0.94"

  2.   brun sagde han

    eh et spørgsmål hehe hvor er de filer, jeg downloader gemt? De vil dræbe mig, ikke? LOL

    1.    KZKG ^ Gaara sagde han

      Filerne downloades til den mappe, hvor du er placeret i terminalen, når du udfører wget get

  3.   auroszx sagde han

    Ahh, jeg forestillede mig ikke, at wget kunne have en så interessant brug ... Nu, hvad angår brugen, som Courage nævner ... Ingen ord 😉

  4.   Carlos-Xfce sagde han

    Ved nogen, om der er et WordPress-plug-in, der forhindrer Wget i at downloade din blog?

  5.   darzee sagde han

    Nå, det er fantastisk for mig !! tak skal du have

  6.   piolavski sagde han

    Meget godt, lad os prøve at se hvordan, tak for bidraget.

  7.   lyairmg sagde han

    Selvom jeg betragter mig selv som en begynder, er det let for mig nu, at jeg vil prøve at blande det med andre ting og se, hvad det giver….

  8.   oswaldo sagde han

    Jeg håber du kan hjælpe mig, fordi det er mandag den 3. december 2012

    Det projekt, der skal udvikles, er følgende:

    Flytning af et websted ved at justere href-referencerne.
    1. -I betragtning af et websted skal du downloade det komplette sted til et lokalt bibliotek ved hjælp af kommandoen wget. Og ved hjælp af et script fra dit forfatterskab udfører du følgende operationer:

    1.1.-Opret en uafhængig mappe til hver type indhold: gif-billeder, jpeg-billeder osv., Avi-videoer, mpg-videoer osv., Mp3-lyd, wav-lyd osv., Webindhold (HTML, javascript osv.).

    1.2.-Når hvert af disse indhold er flyttet, skal du udføre justeringen af ​​referencerne til de lokale placeringer for hver ressource på webstedet.

    1.3.-Aktiver en webserver, og konfigurer rodmappen, hvor websidens sikkerhedskopi er placeret som rodmappen på den lokale webserver.

    1.4.-Bemærk: wget-kommandoen kan kun bruges med følgende muligheder:
    –Rekursiv
    –Domæner
    –Sidekrav
    Hvis der af en eller anden grund er flere kommandoer nødvendige, skal du bruge de nødvendige.

    1.    KZKG ^ Gaara sagde han

      For at downloade her tror jeg, du har løsningen i posten, nu ... for at flytte filer og erstatte stierne, jeg var nødt til at gøre noget som dette for et stykke tid siden i mit arbejde, jeg efterlader dig det script, jeg brugte: http://paste.desdelinux.net/4670

      Du ændrer det under hensyntagen til filtypen og stien, det vil sige, hvordan .HTML'erne på dit websted er sammensat, og det.

      Dette er ikke den 100% løsning, fordi du skal lave nogle ordninger eller ændringer, men jeg garanterer, at det er 70 eller 80% af alt arbejdet 😉

      1.    oswaldo sagde han

        Tak KZKG ^ Gaara har været en stor hjælp for mig

  9.   gæld sagde han

    Jeg har altid brugt httrack. Scrapbog til Firefox Jeg prøver det, men jeg elsker wget. Tak skal du have!

  10.   Daniel PZ sagde han

    Mand, kommandoen fungerede ikke for mig ... denne fungerede godt for mig:

    wget – tilfældig-vent -r -p -e robotter = off-U mozilla http://www.example.com

    1.    Daniel sagde han

      Mange tak! Jeg brugte det med de parametre, der blev foreslået af Daniel PZ, og jeg havde ingen problemer 🙂

  11.   Ruben Almaguer sagde han

    Tak dreng, det gjorde jeg med WGet på min Linux-hvalp, men jeg vidste ikke, hvordan man gjorde det i terminalen. en hilsen

  12.   stædig sagde han

    hvor opbevarer du siderne?

    1.    Hakket sagde han

      Hvor du har terminalen åben. Først i din bruger rodmappe, medmindre du angiver en anden sti.

  13.   fernando sagde han

    Download også linkene? Så hvis der er et link til en pdf eller et andet dokument, downloader du det også?

  14.   raul sagde han

    Hvad kan jeg gøre for at downloade min komplette blog? Jeg prøvede, og hvad jeg ikke kan se, ser ud til at være i koder eller blokeret, på trods af at det tager mange timer at downloade, men kun den indledende side kan læses, hvilket anbefales til mig at downloade min blog, tak raul.

  15.   leo sagde han

    hej, uden tvivl er det muligt at erstatte links i html, for senere at kunne gennemse den downloadede side, som om den var originalen.

    Hvad der sker er, at jeg downloader siden, og da jeg åbnede den fra de downloadede filer, tog jeg ikke .css eller .js, og linkene på siden førte mig til siden på Internettet.