Prenesite celotno spletno mesto z wgetom, tudi če obstajajo omejitve

Kaj je wget?

Nič boljšega kot Wikipedia razložiti, iz česa je to orodje:

GNU Wget je brezplačno programsko orodje, ki omogoča prenos vsebine s spletnih strežnikov na preprost način. Njegovo ime izhaja iz svetovnega spleta (w) in iz "get" (v angleščini get), to pomeni: get from the WWW.

Trenutno podpira prenose s protokoli HTTP, HTTPS in FTP.

Med najbolj izjemne funkcije, ki jih ponuja wget obstaja možnost preprostega rekurzivnega prenosa zapletenih ogledal, pretvorbe povezav za prikaz vsebine HTML lokalno, podpora za proxyje ...

De wget hemos hablado ya bastante aquí en DesdeLinux. Pravzaprav ya Videli smo, kako prenesti celotno spletno mesto z wgetom, težava pa je v tem, da danes skrbniki ne dovolijo nikomur, da naloži celotno njihovo spletno stran kar tako, to ni nekaj, kar jim je res všeč ... in, očitno razumem. Spletno mesto je na internetu, da se z njim posvetuje, bralec dostopa do vsebine, ki vas zanima, in skrbnik strani ima ugodne gospodarske koristi (z oglaševanjem), kot pri obiskih itd. Če bralec spletno mesto prenese v svoj računalnik, mu ne bo treba iti na splet, da bi se posvetoval s prejšnjo objavo.

Če želite prenesti spletno mesto z wgetom, je preprosto:

wget -r -k http://www.sitio.com

  • -r : To pomeni, da bo preneseno celotno spletno mesto.
  • -k : To pomeni, da bodo povezave do prenesenega spletnega mesta pretvorjene tako, da jih bo mogoče videti v računalnikih brez interneta.

Zdaj se stvari zapletejo, ko nam skrbnik spletnega mesta oteži ...

Kakšne omejitve lahko obstajajo?

Najpogostejše, kar smo lahko ugotovili, je, da je dostop do spletnega mesta dovoljen le, če imate prepoznanega UserAgent. Z drugimi besedami, spletno mesto bo prepoznalo, da UserAgent, ki prenaša toliko strani, ni ena od "običajnih" in bo zato zaprl dostop.

Tudi z datoteko robots.txt lahko določite, da wget (kot kup podobnih aplikacij) Ne boste mogli prenesti, kot želi stranka, no ... no, skrbnik strani to želi, pika 😀

Kako se izogniti tem omejitvam?

V prvem primeru bomo vzpostavili UserAgent za wget, lahko to storimo z možnostjo –Uporabniški agent, tukaj vam pokažem, kako:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Zdaj, če želite obiti robots.txt, samo izključite to datoteko, to je, pustite wgetu, da prenese spletno mesto in ne bo vseeno, kaj pravi robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Zdaj ... obstajajo še druge možnosti ali parametri, s katerimi lahko spletno mesto še bolj zavedemo, na primer označimo, da na spletno mesto vstopimo iz Googla, tu zapuščam zadnjo vrstico z vsem:

wget --header = "Sprejmi: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Ni obvezno, da stran na začetku vsebuje http: // www, lahko je neposredno http: // kot na primer ta Geometrija Dash

Ali je to v redu?

To je odvisno ... vedno ga morate videti z obeh stališč, s strani skrbnika strani in tudi bralca.

Po eni strani mi kot skrbniku ne bi bilo všeč, da jemljejo HTML kopijo mojega spletnega mesta kar tako, tukaj je na spletu ne zaradi užitka, ampak zaradi užitka vseh ... naš cilj je imeti na voljo zanimivo vsebino, ki se je lahko naučite.

Toda po drugi strani ... obstajajo uporabniki, ki doma nimajo interneta, in bi radi imeli celoten razdelek Vadnice, ki smo ga postavili tukaj ... Na njihovo mesto sem se postavil (pravzaprav sem, ker doma nimam interneta) in ni prijetno biti v računalniku, imeti težave ali želeti nekaj storiti in ne morete, ker nimate dostopa do omrežja omrežij.

Ali je pravilno ali narobe, je odvisno od vsakega skrbnika, resničnosti vsakega ... kaj bi me najbolj skrbelo, bi bila poraba virov, ki jo wget povzroči na strežniku, a z dobrim sistemom predpomnilnika bi moralo biti dovolj za strežnik ne trpi.

Internet

Sklepi

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

No nič, upam, da je koristno ... Lep pozdrav


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.

  1.   eliotime3000 je dejal

    Zanimiv namig. Nisem vedel, da lahko to storiš.

  2.   Emmanuel je dejal

    To se mi je izrecno zgodilo dvakrat in zagotovo tudi zaradi tega. Čeprav sem zaradi hitrosti (dom vs univerza) želel tako dostopati do vsebine. 😛
    Hvala za nasvet. S spoštovanjem.

  3.   Gerardo je dejal

    Super za tiste, ki nimamo interneta. Vsekakor dobre vaje.

  4.   Kvinota je dejal

    Zelo zanimiv članek.
    Vprašanje: kako je to mogoče storiti za https strani?
    Kje je treba preveriti pristnost z uporabniškim imenom in geslom in tudi večina strani je napisana v javi?
    Lep pozdrav in hvala

  5.   Gelibazij je dejal

    in kje se shranjujejo prenosi?

    1.    Gelibazij je dejal

      Odgovorim si: v osebni mapi. Zdaj pa je vprašanje ... mu lahko kako poveš, kam naj prenese vsebino?

      hvala

      1.    Daniel je dejal

        Predvidevam, da najprej dostopate do mape, kamor jo želite shraniti, nato pa zaženete wget

  6.   Cristian je dejal

    poizvedba ... in nekaj takega bo "kloniralo" bazo podatkov

  7.   xphnx je dejal

    Zanima me, ali prejemate denar za postavitev povezav do spletnih mest z mikro nišami?

  8.   Rupert je dejal

    Blagoslovljena čarovnica ... tako sem v prašičjih dneh xD naložila veliko pornografije

  9.   luna je dejal

    dober namig. hvala

  10.   NULL je dejal

    Zelo dobro, všeč mi je bil del o izogibanju omejitvam.

  11.   Franz je dejal

    Hvala za ta dragulj:
    wget –header = »Sprejmi: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = izklopljeno

    wget –header = »Sprejmi: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = izklopljeno

    wget –header = »Sprejmi: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = izklopljeno

  12.   Golobice je dejal

    Zelo zanimivo.

  13.   oscar meza je dejal

    wget je eno izmed tistih izjemno zmogljivih orodij, z malo terminala za programiranje lahko izdelate svojega robota v Googlovem slogu, da začnete prenašati vsebino strani in jo shranite v lastno bazo podatkov ter s temi podatki naredite vse, kar želite pozneje.

  14.   Charles G. je dejal

    To orodje se mi zdi zelo zanimivo, nikoli nisem bil pozoren na njegove parametre. Zanima me, ali je mogoče prenesti vsebino s strani «X», na katero morate biti prijavljeni, in če je nekje na tem spletnem mestu «X» obstaja kakšen videoposnetek, ali bi ga tudi prenesel, tudi če pripada drugemu CDN-ju kot spletno mesto «X»?

    Če bi bilo to mogoče, kako spletno mesto ščiti pred takim orodjem?

    Lep pozdrav!

  15.   Erick zanardi je dejal

    Lahko noč:

    Pišem vam na posvet. Z zadnjim ukazom tega članka sem s strani prenesel skoraj 300 MB podatkov .. datotek .swf, .js, .html http://www.netacad.com/es z mojim uporabnikom z majhnega tečaja, ki sem ga opravil na Maracayu v Venezueli.

    Moje vprašanje je ... Ali si bo mogoče ogledati flash animacije?

    Vnesem "Global Configuration" in možnosti, ki jih prikazuje nobena, mi omogočajo konfiguracijo.

    Cenim kakršen koli odziv.

    Hvala vnaprej!

    1.    ADX je dejal

      Imam enako podrobnost, .swf se prenese na polovico, če jo lahko preskočite, mi delite informacije Nazadnje sem uporabil pajka, da sem dobil vse povezave netacad, vendar se .swf ne konča s prenosom, kot bi moral

  16.   alexander.hernandez je dejal

    zelo dobro !!! hvala.

  17.   Ana je dejal

    Pozdravljeni, hvala za vaš tuto. Poskušam prenesti blog, v katerem sem povabljen, z geslom, da ga lahko preberem od doma brez povezave. Uporabljam ta program in očitno imam geslo za blog (wordpress), vendar ne vem, kako naprej. Mi lahko pokažeš?
    Hvala vnaprej in lep pozdrav!

  18.   Fran je dejal

    kako super objava !!!

  19.   Santiago je dejal

    odlično mi je veliko postreglo

  20.   Fran je dejal

    Prijavljen sem na spletno mesto z vdelanimi videoposnetki vimeo in jih ni mogoče prenesti .. zdi se, kot da jih ima vimeo zaščitene. Kaj idej??