Descarga sitio web completo con wget aún si hay restricciones

Prenesite celotno spletno mesto z wgetom, tudi če obstajajo omejitve

Kaj je wget?

Nič boljšega kot Wikipedia razložiti, iz česa je to orodje:

GNU Wget je brezplačno programsko orodje, ki omogoča prenos vsebine s spletnih strežnikov na preprost način. Njegovo ime izhaja iz svetovnega spleta (w) in iz "get" (v angleščini get), to pomeni: get from the WWW.

Trenutno podpira prenose s protokoli HTTP, HTTPS in FTP.

Med najbolj izjemne funkcije, ki jih ponuja wget obstaja možnost preprostega rekurzivnega prenosa zapletenih ogledal, pretvorbe povezav za prikaz vsebine HTML lokalno, podpora za proxyje ...

De wget hemos hablado ya bastante aquí en DesdeLinux. Pravzaprav ya Videli smo, kako prenesti celotno spletno mesto z wgetom, težava pa je v tem, da danes skrbniki ne dovolijo nikomur, da naloži celotno njihovo spletno stran kar tako, to ni nekaj, kar jim je res všeč ... in, očitno razumem. Spletno mesto je na internetu, da se z njim posvetuje, bralec dostopa do vsebine, ki vas zanima, in skrbnik strani ima ugodne gospodarske koristi (z oglaševanjem), kot pri obiskih itd. Če bralec spletno mesto prenese v svoj računalnik, mu ne bo treba iti na splet, da bi se posvetoval s prejšnjo objavo.

Če želite prenesti spletno mesto z wgetom, je preprosto:

wget -r -k http://www.sitio.com

-r : To pomeni, da bo preneseno celotno spletno mesto.
-k : To pomeni, da bodo povezave do prenesenega spletnega mesta pretvorjene tako, da jih bo mogoče videti v računalnikih brez interneta.

Zdaj se stvari zapletejo, ko nam skrbnik spletnega mesta oteži ...

Kakšne omejitve lahko obstajajo?

Najpogostejše, kar smo lahko ugotovili, je, da je dostop do spletnega mesta dovoljen le, če imate prepoznanega UserAgent. Z drugimi besedami, spletno mesto bo prepoznalo, da UserAgent, ki prenaša toliko strani, ni ena od "običajnih" in bo zato zaprl dostop.

Tudi z datoteko robots.txt lahko določite, da wget (kot kup podobnih aplikacij) Ne boste mogli prenesti, kot želi stranka, no ... no, skrbnik strani to želi, pika 😀

Kako se izogniti tem omejitvam?

V prvem primeru bomo vzpostavili UserAgent za wget, lahko to storimo z možnostjo –Uporabniški agent, tukaj vam pokažem, kako:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Zdaj, če želite obiti robots.txt, samo izključite to datoteko, to je, pustite wgetu, da prenese spletno mesto in ne bo vseeno, kaj pravi robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Zdaj ... obstajajo še druge možnosti ali parametri, s katerimi lahko spletno mesto še bolj zavedemo, na primer označimo, da na spletno mesto vstopimo iz Googla, tu zapuščam zadnjo vrstico z vsem:

wget --header = "Sprejmi: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Ni obvezno, da stran na začetku vsebuje http: // www, lahko je neposredno http: // kot na primer ta Geometrija Dash

Ali je to v redu?

To je odvisno ... vedno ga morate videti z obeh stališč, s strani skrbnika strani in tudi bralca.

Po eni strani mi kot skrbniku ne bi bilo všeč, da jemljejo HTML kopijo mojega spletnega mesta kar tako, tukaj je na spletu ne zaradi užitka, ampak zaradi užitka vseh ... naš cilj je imeti na voljo zanimivo vsebino, ki se je lahko naučite.

Toda po drugi strani ... obstajajo uporabniki, ki doma nimajo interneta, in bi radi imeli celoten razdelek Vadnice, ki smo ga postavili tukaj ... Na njihovo mesto sem se postavil (pravzaprav sem, ker doma nimam interneta) in ni prijetno biti v računalniku, imeti težave ali želeti nekaj storiti in ne morete, ker nimate dostopa do omrežja omrežij.

Ali je pravilno ali narobe, je odvisno od vsakega skrbnika, resničnosti vsakega ... kaj bi me najbolj skrbelo, bi bila poraba virov, ki jo wget povzroči na strežniku, a z dobrim sistemom predpomnilnika bi moralo biti dovolj za strežnik ne trpi.

Sklepi

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

No nič, upam, da je koristno ... Lep pozdrav

Pustite svoj komentar Prekliči odgovor

eliotime3000 je dejal
nazaj 10 let

Zanimiv namig. Nisem vedel, da lahko to storiš.

Odgovorite na eliotime3000
Emmanuel je dejal
nazaj 10 let

To se mi je izrecno zgodilo dvakrat in zagotovo tudi zaradi tega. Čeprav sem zaradi hitrosti (dom vs univerza) želel tako dostopati do vsebine. 😛
Hvala za nasvet. S spoštovanjem.

Odgovorite Emmanuelu
Gerardo je dejal
nazaj 10 let

Super za tiste, ki nimamo interneta. Vsekakor dobre vaje.

Odgovorite Gerardu
Kvinota je dejal
nazaj 10 let

Zelo zanimiv članek.
Vprašanje: kako je to mogoče storiti za https strani?
Kje je treba preveriti pristnost z uporabniškim imenom in geslom in tudi večina strani je napisana v javi?
Lep pozdrav in hvala

Odgovorite Quinottu
Gelibazij je dejal
nazaj 10 let

in kje se shranjujejo prenosi?

Odgovorite na Gelibasio
1. Gelibazij je dejal
  nazaj 10 let
  
  Odgovorim si: v osebni mapi. Zdaj pa je vprašanje ... mu lahko kako poveš, kam naj prenese vsebino?
  
  hvala
  
  Odgovorite na Gelibasio
  1. Daniel je dejal
    nazaj 10 let
    
    Predvidevam, da najprej dostopate do mape, kamor jo želite shraniti, nato pa zaženete wget
    
    Odgovori Danielu
Cristian je dejal
nazaj 10 let

poizvedba ... in nekaj takega bo "kloniralo" bazo podatkov

Odgovorite na Cristian
xphnx je dejal
nazaj 10 let

Zanima me, ali prejemate denar za postavitev povezav do spletnih mest z mikro nišami?

Odgovorite na xphnx
Rupert je dejal
nazaj 10 let

Blagoslovljena čarovnica ... tako sem v prašičjih dneh xD naložila veliko pornografije

Odgovorite Rupertu
luna je dejal
nazaj 10 let

dober namig. hvala

Odgovorite na alunado
NULL je dejal
nazaj 10 let

Zelo dobro, všeč mi je bil del o izogibanju omejitvam.

Odgovorite na NULL
Franz je dejal
nazaj 10 let

Hvala za ta dragulj:
wget –header = »Sprejmi: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = izklopljeno

wget –header = »Sprejmi: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = izklopljeno

wget –header = »Sprejmi: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = izklopljeno

Odgovorite Franzu
Golobice je dejal
nazaj 10 let

Zelo zanimivo.

Odgovorite Palomaresu
oscar meza je dejal
nazaj 10 let

wget je eno izmed tistih izjemno zmogljivih orodij, z malo terminala za programiranje lahko izdelate svojega robota v Googlovem slogu, da začnete prenašati vsebino strani in jo shranite v lastno bazo podatkov ter s temi podatki naredite vse, kar želite pozneje.

Odgovor Oscarju Mezi
Charles G. je dejal
nazaj 9 let

To orodje se mi zdi zelo zanimivo, nikoli nisem bil pozoren na njegove parametre. Zanima me, ali je mogoče prenesti vsebino s strani «X», na katero morate biti prijavljeni, in če je nekje na tem spletnem mestu «X» obstaja kakšen videoposnetek, ali bi ga tudi prenesel, tudi če pripada drugemu CDN-ju kot spletno mesto «X»?

Če bi bilo to mogoče, kako spletno mesto ščiti pred takim orodjem?

Lep pozdrav!

Odgovor Carlosu G.
Erick zanardi je dejal
nazaj 9 let

Lahko noč:

Pišem vam na posvet. Z zadnjim ukazom tega članka sem s strani prenesel skoraj 300 MB podatkov .. datotek .swf, .js, .html http://www.netacad.com/es z mojim uporabnikom z majhnega tečaja, ki sem ga opravil na Maracayu v Venezueli.

Moje vprašanje je ... Ali si bo mogoče ogledati flash animacije?

Vnesem "Global Configuration" in možnosti, ki jih prikazuje nobena, mi omogočajo konfiguracijo.

Cenim kakršen koli odziv.

Hvala vnaprej!

Odgovor Ericku Zanardiju
1. ADX je dejal
  nazaj 9 let
  
  Imam enako podrobnost, .swf se prenese na polovico, če jo lahko preskočite, mi delite informacije Nazadnje sem uporabil pajka, da sem dobil vse povezave netacad, vendar se .swf ne konča s prenosom, kot bi moral
  
  Odgovorite na ADX
alexander.hernandez je dejal
nazaj 8 let

zelo dobro !!! hvala.

Odgovorite na alejandro.hernandez
Ana je dejal
nazaj 8 let

Pozdravljeni, hvala za vaš tuto. Poskušam prenesti blog, v katerem sem povabljen, z geslom, da ga lahko preberem od doma brez povezave. Uporabljam ta program in očitno imam geslo za blog (wordpress), vendar ne vem, kako naprej. Mi lahko pokažeš?
Hvala vnaprej in lep pozdrav!

Odgovorite Ani
Fran je dejal
nazaj 7 let

kako super objava !!!

Odgovori Franu
Santiago je dejal
nazaj 7 let

odlično mi je veliko postreglo

Odgovor Santiagu
Fran je dejal
nazaj 7 let

Prijavljen sem na spletno mesto z vdelanimi videoposnetki vimeo in jih ni mogoče prenesti .. zdi se, kot da jih ima vimeo zaščitene. Kaj idej??

Odgovori Franu