Pomoću terminala: Preuzmite kompletnu web stranicu s Wgetom

Ništa bolje od Wikipedija objasniti što se sastoji od ovog alata:

GNU Wget je besplatni softverski alat koji omogućuje preuzimanje sadržaja s web poslužitelja na jednostavan način. Njegovo ime potječe od World Wide Weba (w), a od "get" (na engleskom get), to znači: doći s WWW-a.

Trenutno podržava preuzimanje putem HTTP, HTTPS i FTP protokola.

Među najistaknutijim značajkama koje nudi wget postoji mogućnost jednostavnog rekurzivnog preuzimanja složenih zrcala, pretvorbe veza za lokalni prikaz HTML sadržaja, podrška za proxyje ...

Istina je da postoje i druge aplikacije koje nam pomažu u obavljanju ove vrste posla kao što su httrack ili čak proširenja za Firefox kao album, ali ništa poput jednostavnosti terminala 😀

Radeći čaroliju

Bio sam znatiželjan o filmu: Social Network, kao lik Mark Zuckerberg upotrijebite frazu: «Malo čarobne vještice«, Kad sam htio preuzeti fotografije za Facemash 😀 i istina je, wget omogućuje vam magiju s odgovarajućim parametrima.

Pogledajmo nekoliko primjera, krenimo s jednostavnom uporabom alata.

Da biste sišli na stranicu:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Da biste rekurzivno preuzeli cijelu web lokaciju, uključujući slike i druge vrste podataka:

$ wget -r https://blog.desdelinux.net/

I tu dolazi čarolija. Kao što nam objašnjavaju u članku Ljudi, mnoge web stranice provjeravaju identitet preglednika kako bi primijenile razna ograničenja. S wget to možemo zaobići na sljedeći način:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Ili možemo napraviti pauzu između svake stranice, u protivnom vlasnik web stranice može shvatiti da web stranicu u potpunosti preuzimamo s wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Ostavite svoj komentar

Vaša email adresa neće biti objavljen. Obavezna polja su označena s *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obvezi.
  5. Pohrana podataka: Baza podataka koju hostira Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   pandev92 dijo

    Postoji li nešto za preuzimanje samo slika xd?

    1.    Hrabrost dijo

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Da sam ti samo pročitao misli hahahaha

      1.    pandev92 dijo

        lol oo xd

    2.    KZKG ^ Gaara dijo

      čovječe wget 😉

      1.    pandev92 dijo

        Život je prekratak za čitanje.

        1.    KZKG ^ Gaara dijo

          Život je prekratak da bi mozak napunio informacijama, ali još uvijek vrijedi pokušati 🙂

          1.    pandev92 dijo

            Informacije vrijede upola, radije ih popunjavam ženama, igrama i novcem ako je moguće XD.

          2.    Hrabrost dijo

            Uvijek jebeno razmišljaš o ženama. Od sada ćete slušati Dadee Yankee, Don Omara i Wisin Y Yandela kao što to čini KZKG ^ Gaara.

            Bolje se posvetite novcu, što je najvažnije u ovom životu

            1.    KZKG ^ Gaara dijo

              Postoje stvari koje vrijede mnogo više od novca ... na primjer, biti u povijesti, mijenjati stvari, biti zapamćen koliko ste uspjeli doprinijeti svijetu; a ne za to koliko ste novca imali kad ste umrli 😉

              Pokušajte ne postati čovjek uspjeha već čovjek hrabrosti, Albert Einsein.


          3.    Hrabrost dijo

            A može li prosjak koji živi ispod mosta to učiniti, a da nema ni lipe?

            Pa ne

          4.    Hrabrost dijo

            *imati

          5.    pandev92 dijo

            Hrabro, imao sam svoju reggaeton eru i više nisam, to je bilo prije nekoliko godina, slušam samo japansku i klasičnu glazbu, a s novcem ... radimo na tome :).

          6.    pandev92 dijo

            Nije me briga da me se sjećaju, gara, kad umrem, umrijet ću i zajebati ostalo, jer neću moći znati ni što misle o meni. Što vrijedi pamtiti, ali možete biti ponosni na to xD.

    3.    hypersayan_x dijo

      Za preuzimanje određene vrste datoteka možete koristiti filtre:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      I savjet, ako ćete klonirati vrlo veliku stranicu, preporučuje se da to učinite putem proxyja kao što je tor, jer u suprotnom postoje određene stranice koje su dosegle određeni broj uzastopnih zahtjeva, blokirajući vašu IP adresu na nekoliko sati ili dana .
      Drugi put mi se to dogodilo kad sam htio klonirati wiki.

    4.    mdir dijo

      Proširenje koje koristim u Firefoxu preuzima samo slike; naziva se "Spremi slike 0.94"

  2.   smeđ dijo

    eh pitanje hehe gdje su spremljene datoteke koje preuzmem? Oni će me htjeti ubiti, zar ne? lol

    1.    KZKG ^ Gaara dijo

      Datoteke se preuzimaju u mapu u kojoj se nalazite na terminalu prilikom izvršavanja wgeta get

  3.   auroszx dijo

    Ahh, nisam zamišljao da bi wget mogao imati tako zanimljivu upotrebu ... Sad, u vezi s upotrebom koju spominje Courage ... Nema riječi 😉

  4.   Carlos-Xfce dijo

    Zna li netko postoji li WordPress dodatak koji sprečava Wget da preuzme vaš blog?

  5.   dragi dijo

    Pa meni je super !! Hvala vam

  6.   piolavski dijo

    Vrlo dobro, pokušajmo vidjeti kako, hvala na doprinosu.

  7.   lyairmg dijo

    Iako se smatram početnikom, ovo mi je sada lako, pokušat ću to pomiješati s drugim stvarima i vidjeti što to daje ...

  8.   oswaldo dijo

    Nadam se da mi možete pomoći jer je za ponedjeljak, 3. prosinca 2012

    Projekt koji će se razviti je sljedeći:

    Premještanje web stranice prilagođavanjem href referenci.
    1.-S obzirom na web mjesto, preuzmite kompletno mjesto u lokalni direktorij pomoću naredbe wget. A pomoću skripte vašeg autorstva izvedite sljedeće operacije:

    1.1.-Stvorite neovisni direktorij za svaku vrstu sadržaja: gif slike, jpeg slike itd., Avi videozapisi, mpg videozapisi itd., Mp3 audio, wav audio, itd., Web sadržaj (HTML, javascript, itd.).

    1.2.-Nakon što se svaki od ovih sadržaja preseli, izvršite prilagođavanje referenci na lokalna mjesta svakog resursa na web mjestu.

    1.3.-Aktivirajte web poslužitelj i konfigurirajte korijenski direktorij u kojem se nalazi sigurnosna kopija web mjesta kao korijenski direktorij lokalnog web poslužitelja.

    1.4.-Napomena: naredba wget može se koristiti samo sa sljedećim opcijama:
    -Ponavljajući
    –Domene
    –Rekviziti za stranicu
    Ako je iz nekog razloga potrebno više naredbi, upotrijebite potrebne.

    1.    KZKG ^ Gaara dijo

      Da biste ga ovdje preuzeli, mislim da imate rješenje u postu, sada ... za premještanje datoteka i zamjenu staza, morao sam učiniti nešto slično maloprije na svom poslu, ostavljam vam skriptu koju sam koristio: http://paste.desdelinux.net/4670

      Izmijenite ga uzimajući u obzir vrstu datoteke i putanju, odnosno kako se oblikuju .HTML-ovi vaše web stranice i to.

      Ovo nije 100% rješenje jer morate napraviti neke aranžmane ili promjene, ali jamčim da je to 70 ili 80% cijelog posla 😉

      1.    oswaldo dijo

        Hvala KZKG ^ Gaara mi je bio od velike pomoći

  9.   Dug dijo

    Uvijek sam koristio httrack. Spomenar za firefox Isprobat ću ga, ali volim wget. Hvala vam!

  10.   Daniel PZ dijo

    Čovječe, naredba mi nije uspjela ... ova mi je dobro pošla:

    wget –random-wait -r -p -e robots = isključeno -U mozilla http://www.example.com

    1.    Danijel dijo

      Hvala puno! Koristio sam ga s parametrima koje je predložio Daniel PZ i nisam imao problema 🙂

  11.   Ruben Almaguer dijo

    Hvala dečko, učinio sam to s WGetom na svom štenetu Linuxa, ali nisam znao kako se to radi u terminalu. Pozdrav

  12.   tvrdoglav dijo

    gdje držiš stranice?

    1.    Sjeckani dijo

      Tamo gdje je terminal otvoren. Isprva u korisničkoj korijenskoj mapi, osim ako ne naznačite drugi put.

  13.   Fernando dijo

    Također preuzeti linkove? Pa ako postoji veza do pdf-a ili drugog dokumenta, preuzimate li ga i vi?

  14.   rijeka dijo

    Što mogu učiniti za preuzimanje cijelog bloga, pokušao sam, a čini se da ono što ne vidim ima kodove ili je blokirano, unatoč tome što je potrebno puno sati za preuzimanje, ali može se pročitati samo početna stranica koju preporučujem za preuzimanje moj blog, hvala raul.

  15.   Lav dijo

    bok, sumnjam da je moguće zamijeniti veze unutar html-a, da bi kasnije mogli pregledavati preuzetu stranicu kao da je original.

    Ono što se događa je da stranicu preuzmem i kad sam je otvorio iz preuzetih datoteka, nisam uzeo .css ili .js i veze na stranici vode me do stranice na Internetu.