Kaj je wget?
Nič boljšega kot Wikipedia razložiti, iz česa je to orodje:
GNU Wget je brezplačno programsko orodje, ki omogoča prenos vsebine s spletnih strežnikov na preprost način. Njegovo ime izhaja iz svetovnega spleta (w) in iz "get" (v angleščini get), to pomeni: get from the WWW.
Trenutno podpira prenose s protokoli HTTP, HTTPS in FTP.
Med najbolj izjemne funkcije, ki jih ponuja wget obstaja možnost preprostega rekurzivnega prenosa zapletenih ogledal, pretvorbe povezav za prikaz vsebine HTML lokalno, podpora za proxyje ...
De wget hemos hablado ya bastante aquí en DesdeLinux. Pravzaprav ya Videli smo, kako prenesti celotno spletno mesto z wgetom, težava pa je v tem, da danes skrbniki ne dovolijo nikomur, da naloži celotno njihovo spletno stran kar tako, to ni nekaj, kar jim je res všeč ... in, očitno razumem. Spletno mesto je na internetu, da se z njim posvetuje, bralec dostopa do vsebine, ki vas zanima, in skrbnik strani ima ugodne gospodarske koristi (z oglaševanjem), kot pri obiskih itd. Če bralec spletno mesto prenese v svoj računalnik, mu ne bo treba iti na splet, da bi se posvetoval s prejšnjo objavo.
Če želite prenesti spletno mesto z wgetom, je preprosto:
wget -r -k http://www.sitio.com
- -r : To pomeni, da bo preneseno celotno spletno mesto.
- -k : To pomeni, da bodo povezave do prenesenega spletnega mesta pretvorjene tako, da jih bo mogoče videti v računalnikih brez interneta.
Zdaj se stvari zapletejo, ko nam skrbnik spletnega mesta oteži ...
Kakšne omejitve lahko obstajajo?
Najpogostejše, kar smo lahko ugotovili, je, da je dostop do spletnega mesta dovoljen le, če imate prepoznanega UserAgent. Z drugimi besedami, spletno mesto bo prepoznalo, da UserAgent, ki prenaša toliko strani, ni ena od "običajnih" in bo zato zaprl dostop.
Tudi z datoteko robots.txt lahko določite, da wget (kot kup podobnih aplikacij) Ne boste mogli prenesti, kot želi stranka, no ... no, skrbnik strani to želi, pika 😀
Kako se izogniti tem omejitvam?
V prvem primeru bomo vzpostavili UserAgent za wget, lahko to storimo z možnostjo –Uporabniški agent, tukaj vam pokažem, kako:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Zdaj, če želite obiti robots.txt, samo izključite to datoteko, to je, pustite wgetu, da prenese spletno mesto in ne bo vseeno, kaj pravi robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off
Zdaj ... obstajajo še druge možnosti ali parametri, s katerimi lahko spletno mesto še bolj zavedemo, na primer označimo, da na spletno mesto vstopimo iz Googla, tu zapuščam zadnjo vrstico z vsem:
wget --header = "Sprejmi: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k
Ali je to v redu?
To je odvisno ... vedno ga morate videti z obeh stališč, s strani skrbnika strani in tudi bralca.
Po eni strani mi kot skrbniku ne bi bilo všeč, da jemljejo HTML kopijo mojega spletnega mesta kar tako, tukaj je na spletu ne zaradi užitka, ampak zaradi užitka vseh ... naš cilj je imeti na voljo zanimivo vsebino, ki se je lahko naučite.
Toda po drugi strani ... obstajajo uporabniki, ki doma nimajo interneta, in bi radi imeli celoten razdelek Vadnice, ki smo ga postavili tukaj ... Na njihovo mesto sem se postavil (pravzaprav sem, ker doma nimam interneta) in ni prijetno biti v računalniku, imeti težave ali želeti nekaj storiti in ne morete, ker nimate dostopa do omrežja omrežij.
Ali je pravilno ali narobe, je odvisno od vsakega skrbnika, resničnosti vsakega ... kaj bi me najbolj skrbelo, bi bila poraba virov, ki jo wget povzroči na strežniku, a z dobrim sistemom predpomnilnika bi moralo biti dovolj za strežnik ne trpi.
Sklepi
Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.
Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉
No nič, upam, da je koristno ... Lep pozdrav
Zanimiv namig. Nisem vedel, da lahko to storiš.
To se mi je izrecno zgodilo dvakrat in zagotovo tudi zaradi tega. Čeprav sem zaradi hitrosti (dom vs univerza) želel tako dostopati do vsebine. 😛
Hvala za nasvet. S spoštovanjem.
Super za tiste, ki nimamo interneta. Vsekakor dobre vaje.
Zelo zanimiv članek.
Vprašanje: kako je to mogoče storiti za https strani?
Kje je treba preveriti pristnost z uporabniškim imenom in geslom in tudi večina strani je napisana v javi?
Lep pozdrav in hvala
in kje se shranjujejo prenosi?
Odgovorim si: v osebni mapi. Zdaj pa je vprašanje ... mu lahko kako poveš, kam naj prenese vsebino?
hvala
Predvidevam, da najprej dostopate do mape, kamor jo želite shraniti, nato pa zaženete wget
poizvedba ... in nekaj takega bo "kloniralo" bazo podatkov
Zanima me, ali prejemate denar za postavitev povezav do spletnih mest z mikro nišami?
Blagoslovljena čarovnica ... tako sem v prašičjih dneh xD naložila veliko pornografije
dober namig. hvala
Zelo dobro, všeč mi je bil del o izogibanju omejitvam.
Hvala za ta dragulj:
wget –header = »Sprejmi: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = izklopljeno
wget –header = »Sprejmi: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = izklopljeno
wget –header = »Sprejmi: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = izklopljeno
Zelo zanimivo.
wget je eno izmed tistih izjemno zmogljivih orodij, z malo terminala za programiranje lahko izdelate svojega robota v Googlovem slogu, da začnete prenašati vsebino strani in jo shranite v lastno bazo podatkov ter s temi podatki naredite vse, kar želite pozneje.
To orodje se mi zdi zelo zanimivo, nikoli nisem bil pozoren na njegove parametre. Zanima me, ali je mogoče prenesti vsebino s strani «X», na katero morate biti prijavljeni, in če je nekje na tem spletnem mestu «X» obstaja kakšen videoposnetek, ali bi ga tudi prenesel, tudi če pripada drugemu CDN-ju kot spletno mesto «X»?
Če bi bilo to mogoče, kako spletno mesto ščiti pred takim orodjem?
Lep pozdrav!
Lahko noč:
Pišem vam na posvet. Z zadnjim ukazom tega članka sem s strani prenesel skoraj 300 MB podatkov .. datotek .swf, .js, .html http://www.netacad.com/es z mojim uporabnikom z majhnega tečaja, ki sem ga opravil na Maracayu v Venezueli.
Moje vprašanje je ... Ali si bo mogoče ogledati flash animacije?
Vnesem "Global Configuration" in možnosti, ki jih prikazuje nobena, mi omogočajo konfiguracijo.
Cenim kakršen koli odziv.
Hvala vnaprej!
Imam enako podrobnost, .swf se prenese na polovico, če jo lahko preskočite, mi delite informacije Nazadnje sem uporabil pajka, da sem dobil vse povezave netacad, vendar se .swf ne konča s prenosom, kot bi moral
zelo dobro !!! hvala.
Pozdravljeni, hvala za vaš tuto. Poskušam prenesti blog, v katerem sem povabljen, z geslom, da ga lahko preberem od doma brez povezave. Uporabljam ta program in očitno imam geslo za blog (wordpress), vendar ne vem, kako naprej. Mi lahko pokažeš?
Hvala vnaprej in lep pozdrav!
kako super objava !!!
odlično mi je veliko postreglo
Prijavljen sem na spletno mesto z vdelanimi videoposnetki vimeo in jih ni mogoče prenesti .. zdi se, kot da jih ima vimeo zaščitene. Kaj idej??