Pomoću terminala: Preuzmite kompletnu web stranicu s Wgetom

Ništa bolje od Wikipedia da objasnimo od čega se sastoji ovaj alat:

GNU Wget je besplatni softverski alat koji omogućava preuzimanje sadržaja s web servera na jednostavan način. Njegovo ime potječe od World Wide Weba (w), a od "get" (na engleskom get), to znači: get from WWW.

Trenutno podržava preuzimanje pomoću HTTP, HTTPS i FTP protokola.

Među najistaknutijim karakteristikama koje nudi wget postoji mogućnost jednostavnog rekurzivnog preuzimanja složenih zrcala, konverzije veza za lokalni prikaz HTML sadržaja, podrška za proxyje ...

Tačno je da postoje i druge aplikacije koje nam pomažu u obavljanju ove vrste posla poput httrack ili čak proširenja za Firefox como Beležnica, ali ništa poput jednostavnosti terminala 😀

Čini magiju

Bio sam znatiželjan o filmu: Društvena mreža, kao lik Mark Zuckerberg upotrijebite frazu: «Malo čarobne vještice«, Kad sam htio preuzeti fotografije za Facemash 😀 i istina je, wget omogućava vam magiju s odgovarajućim parametrima.

Pogledajmo nekoliko primjera, krenimo od jednostavne upotrebe alata.

Da biste sišli na stranicu:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Da biste rekurzivno preuzeli cijelu web lokaciju, uključujući slike i druge vrste podataka:

$ wget -r https://blog.desdelinux.net/

I tu dolazi magija. Kao što nam objašnjavaju u članku Ljudi, mnoge web stranice provjeravaju identitet preglednika kako bi primijenile različita ograničenja. Sa wget to možemo zaobići na sljedeći način:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Ili također možemo napraviti pauzu između svake stranice, jer u suprotnom vlasnik web stranice može shvatiti da web stranicu preuzimamo u potpunosti wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   Pandev92 rekao je

    Postoji li nešto za preuzimanje samo slika xd?

    1.    hrabrost rekao je

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Da sam ti samo pročitao misli hahahaha

      1.    Pandev92 rekao je

        lol oo xd

    2.    KZKG ^ Gaara rekao je

      man wget ????

      1.    Pandev92 rekao je

        Život je prekratak za čitanje.

        1.    KZKG ^ Gaara rekao je

          Život je prekratak da bi mozak napunio informacijama, ali još uvijek vrijedi pokušati 🙂

          1.    Pandev92 rekao je

            Informacije vrijede pola, radije ih popunjavam ženama, igrama i novcem ako je moguće XD.

          2.    hrabrost rekao je

            Uvijek jebeno razmišljaš o ženama. Od sada ćete slušati Dadee Yankee, Don Omara i Wisin Y Yandela kao što to čini KZKG ^ Gaara.

            Bolje se posvetite novcu, što je najvažnije u ovom životu

            1.    KZKG ^ Gaara rekao je

              Postoje stvari koje vrijede mnogo više od novca ... na primjer, biti u historiji, praviti razliku, pamtiti se koliko ste uspjeli doprinijeti svijetu; a ne za to koliko novca ste imali kad ste umrli 😉

              Pokušajte ne postati čovjek uspjeha već čovjek hrabrosti, Albert Einsein.


          3.    hrabrost rekao je

            A može li prosjak koji živi ispod mosta to učiniti bez ijedne lipe?

            Pa, ne

          4.    hrabrost rekao je

            *imati

          5.    Pandev92 rekao je

            Hrabro, imao sam svoju reggaeton eru i više nisam, to je bilo prije nekoliko godina, slušam samo japansku i klasičnu muziku, a s novcem ... radimo na tome :).

          6.    Pandev92 rekao je

            Nije me briga da me pamte, gara, kad umrem, umrijet ću i zajebati ostalo, jer neću moći ni znati šta oni misle o meni. Što vrijedi pamtiti, ali možete biti ponosni na to xD.

    3.    hypersayan_x rekao je

      Za preuzimanje određene vrste datoteka možete koristiti filtere:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      I savjet, ako ćete klonirati vrlo veliku stranicu, preporučuje se da to učinite putem proxyja kao što je tor, jer u suprotnom postoje određene stranice koje su postigle određeni broj uzastopnih zahtjeva, blokirajući vašu IP adresu na nekoliko sati ili dana .
      Drugi put mi se to dogodilo kad sam htio klonirati wiki.

    4.    mdir rekao je

      Proširenje koje koristim u Firefoxu preuzima samo slike; zove se "Spremi slike 0.94"

  2.   Pardo rekao je

    eh pitanje hehe gdje su sačuvane datoteke koje preuzmem? Oni će me htjeti ubiti, zar ne? lol

    1.    KZKG ^ Gaara rekao je

      Datoteke se preuzimaju u mapu u kojoj se nalazite na terminalu prilikom izvršavanja wgeta 😉

  3.   auroszx rekao je

    Ahh, nisam zamišljao da bi wget mogao imati tako zanimljivu upotrebu ... Sad, u vezi sa upotrebom koju spominje Courage ... Nema riječi 😉

  4.   Carlos-Xfce rekao je

    Zna li neko postoji li WordPress dodatak koji sprečava Wget da preuzme vaš blog?

  5.   darzee rekao je

    Pa, super mi je !! Hvala ti

  6.   piolavski rekao je

    Vrlo dobro, pokušajmo vidjeti kako, hvala na doprinosu.

  7.   lyairmg rekao je

    Iako se smatram početnikom, ovo mi je sada lako, pokušat ću to pomiješati s drugim stvarima i vidjeti što to daje ...

  8.   oswaldo rekao je

    Nadam se da mi možete pomoći jer je za ponedjeljak, 3. decembra 2012

    Projekt koji će se razviti je sljedeći:

    Preseljenje web stranice prilagođavanjem href referenci.
    1.-Uzimajući u obzir web lokaciju, preuzmite kompletnu stranicu u lokalni direktorij pomoću naredbe wget. A pomoću skripte vašeg autorstva izvedite sljedeće operacije:

    1.1.-Stvorite nezavisni direktorij za svaku vrstu sadržaja: gif slike, jpeg slike itd., Avi videozapisi, mpg videozapisi itd., Mp3 audio, wav audio, itd., Web sadržaj (HTML, javascript, itd.).

    1.2.-Nakon što se svaki od ovih sadržaja preseli, izvršite prilagođavanje referenci na lokalna mjesta svakog resursa na web lokaciji.

    1.3.-Aktivirajte web server i konfigurirajte korijenski direktorij u kojem se nalazi sigurnosna kopija web mjesta kao korijenski direktorij lokalnog Web servera.

    1.4.-Napomena: naredba wget može se koristiti samo sa sljedećim opcijama:
    –Rekurzivno
    –Domene
    –Rekviziti za stranicu
    Ako je iz nekog razloga potrebno više naredbi, upotrijebite potrebne.

    1.    KZKG ^ Gaara rekao je

      Da biste ga ovdje preuzeli, mislim da imate rješenje u postu, sada ... za premještanje datoteka i zamjenu staza, morao sam učiniti nešto slično maloprije u svom radu, ostavljam vam skriptu koju sam koristio: http://paste.desdelinux.net/4670

      Izmijenite ga uzimajući u obzir vrstu datoteke i putanju, odnosno način na koji su .HTML-ovi vaše web stranice sastavljeni i to.

      Ovo nije 100% rješenje jer morate napraviti neke aranžmane ili promjene, ali garantiram vam da je to 70 ili 80% cijelog posla 😉

      1.    oswaldo rekao je

        Hvala KZKG ^ Gaara mi je bila od velike pomoći

  9.   dug rekao je

    Uvijek sam koristio httrack. Spomenar za firefox Isprobat ću, ali volim wget. Hvala ti!

  10.   Daniel PZ rekao je

    Čovječe, naredba mi nije uspjela ... ova mi je uspjela:

    wget –random-wait -r -p -e robots = isključeno -U mozilla http://www.example.com

    1.    Danijel rekao je

      Hvala puno! Koristio sam ga s parametrima koje je predložio Daniel PZ i nisam imao problema 🙂

  11.   Ruben Almaguer rekao je

    Hvala dečko, učinio sam to sa WGet-om na svom štenetu Linuxa, ali nisam znao kako se to radi u terminalu. pozdrav

  12.   tvrdoglav rekao je

    gdje držite stranice?

    1.    Sjekira rekao je

      Tamo gdje je terminal otvoren. Isprva u korisničkoj korijenskoj mapi, osim ako ne naznačite drugu putanju.

  13.   fernando rekao je

    Takođe preuzeti veze? Dakle, ako postoji veza do pdf-a ili drugog dokumenta, da li ga i vi preuzimate?

  14.   raul rekao je

    Što mogu učiniti da preuzmem čitav svoj blog, pokušao sam, a čini se da ono što ne mogu vidjeti je u kodovima ili blokirano, unatoč tome što je trebalo puno sati za preuzimanje, ali može se pročitati samo početna stranica koju preporučujem za preuzimanje moj blog, hvala raul.

  15.   Lav rekao je

    zdravo, sumnjam da je moguće zamijeniti veze unutar html-a, da biste kasnije mogli pregledavati preuzetu stranicu kao da je original.

    Ono što se događa je da stranicu preuzmem i kada sam je otvorio iz preuzetih datoteka, nisam uzeo .css ili .js i veze na stranici me vode do stranice na Internetu.