Atsisiųskite visą svetainę naudodami „wget“, net jei yra apribojimų

Kas yra „wget“?

Nieko geresnio už ' paaiškinti, iš ko susideda šis įrankis:

GNU Wget yra nemokama programinės įrangos priemonė, leidžianti paprastu būdu atsisiųsti turinį iš interneto serverių. Jo pavadinimas kilęs iš „World Wide Web“ (w), o iš „get“ (angliškai get) reiškia: gauti iš WWW.

Šiuo metu ji palaiko atsisiuntimus naudojant HTTP, HTTPS ir FTP protokolus.

Tarp ryškiausių jo siūlomų funkcijų wget yra galimybė lengvai atsisiųsti sudėtingus veidrodžius rekursyviai, konvertuoti nuorodas į HTML turinio rodymą vietoje, palaikyti tarpinius serverius ...

De wget Mes jau pakankamai kalbėjome čia DesdeLinux. Iš tiesų ya Mes matėme, kaip atsisiųsti visą svetainę su „wget“, problema ta, kad šiais laikais administratoriai ne visada leidžia niekam atsisiųsti visą savo svetainę taip, kad tai tikrai ne jiems patinka ... ir, aišku, aš suprantu. Svetainė yra internete, kad būtų galima konsultuotis, skaitytojas pasiekia dominantį turinį, o svetainės administratorius finansiškai gerai (reklamuodamasis), pavyzdžiui, apsilanko ir pan. Jei skaitytojas atsisiunčia svetainę į savo kompiuterį, jam nereikės prisijungti prie interneto ir ieškoti ankstesnio įrašo.

Atsisiųsti svetainę su „wget“ yra taip paprasta:

wget -r -k http://www.sitio.com

  • -r : Tai rodo, kad bus atsisiųsta visa svetainė.
  • -k : Tai rodo, kad atsisiųstos svetainės nuorodos bus konvertuotos, kad būtų galima jas pamatyti kompiuteriuose be interneto.

Dabar viskas tampa sudėtinga, kai svetainės administratorius mums apsunkina ...

Kokie gali būti apribojimai?

Dažniausiai galime rasti tai, kad prieiga prie svetainės leidžiama tik tuo atveju, jei turite pripažintą „UserAgent“. Kitaip tariant, svetainė atpažins, kad „UserAgent“, atsisiunčiantis tiek puslapių, nėra vienas iš „įprastų“ ir todėl uždarys prieigą.

Taip pat per failą robots.txt galite nurodyti tą wget (kaip krūva daugiau panašių programų) Negalėsite atsisiųsti taip, kaip nori klientas, na ... na, svetainės administratorius to nori, laikotarpis 😀

Kaip apeiti šiuos apribojimus?

Pirmuoju atveju mes sukursime „UserAgent“, skirtą „wget“, tai galime padaryti naudodami parinktį -Vartotojo atstovas, čia aš jums parodysiu, kaip:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Dabar, norėdami apeiti „robots.txt“, tiesiog išskirkite tą failą, tai yra, leiskite „wget“ atsisiųsti svetainę ir nesvarbu, ką sako robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Dabar ... yra ir kitų variantų ar parametrų, kuriais galime dar labiau apgauti svetainę, pavyzdžiui, nurodykite, kad mes įeiname į svetainę iš „Google“, čia palieku paskutinę eilutę su viskuo:

wget --header = "Priimti: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Nebūtina, kad svetainėje būtų http: // www, ji gali būti viena tiesiogiai http: //, pavyzdžiui, ši Geometrija brūkšnys

Ar gerai tai daryti?

Tai priklauso ... jūs visada turite tai pamatyti iš abiejų taškų, tiek iš svetainės administratoriaus, tiek iš skaitytojo.

Viena vertus, kaip administratorius, nenorėčiau, kad jie taip imtų mano svetainės HTML kopiją, ji yra internete ne dėl malonumo, dėl malonumo visiems ... mūsų tikslas yra turėti jums prieinamą įdomų turinį, kurį galėtumėte išmokti.

Bet kita vertus ... yra vartotojų, kurie neturi interneto namuose, kurie norėtų, kad būtų visas skyrius „Pamokos“, kurį mes čia įdėjome ... Aš pasodinau save į jų vietą (iš tikrųjų esu, nes namuose neturiu interneto) ir nėra malonu būti kompiuteryje, turint problemų ar norint ką nors padaryti ir negalint, nes neturite prieigos prie tinklų tinklo.

Nesvarbu, ar jis teisingas, ar neteisingas, priklauso nuo kiekvieno administratoriaus, kiekvieno realybės... Man labiausiai rūpėtų išteklių sunaudojimas, kurį „wget“ sukelia serveryje, tačiau, turint gerą talpyklos sistemą, serveriui to turėtų pakakti. kentėti.

Internetas

Išvados

Prašau jūsų nepradėti atsisiųsti dabar. DesdeLinux HA HA HA!! Pvz., mano mergina paprašė, kad atsisiųsčiau kokius nors „Geometry Dash Cheats“ (kažkas panašaus į „Geometry Dash Cheats“), aš neatsisiųsiu visos svetainės, o tiesiog atidarysiu norimą puslapį ir išsaugosiu jį PDF ar HTML ar panašiai, kad tai yra ką tau rekomenduočiau.

Jei turite pamoką DesdeLinux kurias norite išsaugoti, išsaugokite savo žymose, kaip HTML arba PDF... bet, vienai ar dviem pamokoms nebūtina generuoti perteklinio srauto ir suvartojimo serveryje 😉

Na nieko, tikiuosi, kad tai naudinga ... Sveikinimai


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Atsakingas už duomenis: Miguel Ángel Gatón
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.

  1.   3000 sakė

    Įdomus patarimas. Aš nežinojau, kad tu gali tai padaryti.

  2.   Emmanuelis sakė

    Tai aiškiai nutiko man du kartus ir tikrai dėl to. Nors dėl greičio priežasčių (namai vs universitetas) norėjau tokiu būdu pasiekti turinį. 😛
    Ačiū už patarimą. Pagarbiai.

  3.   Gerardo sakė

    Puiku tiems iš mūsų, kurie neturi interneto. Be abejo, geros pamokos.

  4.   Kvinotas sakė

    Labai įdomus straipsnis.
    Klausimas: kaip tai galima padaryti „https“ svetainėms?
    Kur reikia autentifikuoti naudojant vartotojo vardą ir slaptažodį, taip pat didelė svetainės dalis yra parašyta java?
    Sveikinimai ir padėkos

  5.   Gelibassium sakė

    ir kur išsaugomi atsisiuntimai?

    1.    Gelibassium sakė

      Atsakau sau: asmeniniame aplanke. Bet dabar kyla klausimas ... ar galite kaip nors pasakyti jam, kur atsisiųsti turinį?

      dėkoju

      1.    Danielis sakė

        Spėju, kad pirmiausia pasiekiate aplanką, kuriame norite jį išsaugoti, tada paleidžiate „wget“

  6.   Cristian sakė

    užklausa ... ir bus kažkas panašaus į duomenų bazės „klonavimą“

  7.   xphnx sakė

    Man įdomu, ar jūs gaunate pinigų už tų nuorodų pateikimą į mikrorajonų tinklus?

  8.   Rupertas sakė

    Palaimintas wget ... štai kaip aš parsisiunčiau daug pornografijos savo kiaulių laikais xD

  9.   mėnulis sakė

    geras patarimas. dėkoju

  10.   NULL sakė

    Labai gerai, man patiko dalis apie apribojimų apėjimą.

  11.   Franz sakė

    Ačiū už tą perlą:
    wget –header = »Priimti: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotai = išjungti

    wget –header = »Priimti: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robotai = išjungti

    wget –header = »Priimti: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotai = išjungti

  12.   Palomaresas sakė

    Labai įdomu.

  13.   Oskaras Meza sakė

    „wget“ yra vienas iš tų ypač galingų įrankių, su nedideliu terminalo programavimu galite sukurti savo „Google“ stiliaus robotą, kad pradėtumėte atsisiųsti puslapių turinį ir išsaugoti jį savo duomenų bazėje, o vėliau atlikdami viską, ką norite, turėsite tuos duomenis.

  14.   Carlosas G. sakė

    Manau, kad šis įrankis yra labai įdomus, niekada nekreipiau dėmesio į jo parametrus, norėčiau sužinoti, ar galite atsisiųsti turinį iš «X» puslapio, kuriame turite būti prisijungę, ir ar jis yra kur nors šioje svetainėje « X "ar yra kokio nors vaizdo įrašo, ar aš jį atsisiųsiu, net jei jis priklauso kitam CDN nei" X "svetainė?

    Jei tai būtų įmanoma, kaip svetainė apsaugo nuo tokio įrankio?

    Sveiki atvykę!

  15.   Erickas Zanardi sakė

    Labos nakties:

    Rašau jums konsultacijai. Atsisiunčiau iš paskutinės šio straipsnio komandos, beveik 300 MB informacijos .. failus .swf, .js, .html, iš puslapio http://www.netacad.com/es su savo vartotoju iš nedidelio kurso, kurį atlikau Maracay mieste, Venesueloje.

    Mano klausimas ... Ar bus galima pamatyti „Flash“ animacijas?

    Įvedu „Visuotinė konfigūracija“, o jos nerodomos parinktys neleidžia man sukonfigūruoti.

    Vertinu bet kokį atsakymą.

    Ačiū iš anksto!

    1.    ADX sakė

      Turiu tą pačią detalę, .swf atsisiunčiami pusiaukelėje, jei pavyksta praleisti, pasidalykite informacija su manimi. Tai, ką padariau paskutinį kartą, buvo naudoti vorą, norint gauti visas „Netacad“ nuorodas, bet vis tiek .swf neužbaigia atsisiuntimo, kaip turėtų

  16.   alejandro.hernandezas sakė

    labai gerai !!! dėkoju.

  17.   ana sakė

    Sveiki, aciu uz tavo tuto. Bandau atsisiųsti tinklaraštį, kuriame esu pakviestas, su slaptažodžiu, kad galėčiau jį skaityti iš namų be ryšio. Aš naudoju šią programą ir, žinoma, turiu tinklaraščio slaptažodį („WordPress“), bet nežinau, kaip elgtis toliau. Ar galėtum man parodyti?
    Iš anksto dėkoju ir linkiu!

  18.   fran sakė

    koks puikus postas !!!

  19.   Santjagas sakė

    puiku, jis man daug tarnavo

  20.   fran sakė

    Esu prisijungęs prie svetainės su įterptais „vimeo“ vaizdo įrašais ir jų atsisiųsti niekaip negalima. Atrodo, kad „vimeo“ juos apsaugojo. Kokiu nors ideju??