Stáhněte si celý web s wget, i když existují omezení

Co je to Wget?

Nic lepšího než Wikipedia vysvětlit, z čeho se tento nástroj skládá:

GNU Wget je bezplatný softwarový nástroj, který umožňuje snadné stahování obsahu z webových serverů. Jeho název je odvozen od World Wide Web (w) a od „get“ (v angličtině get), to znamená: get from the WWW.

V současné době podporuje stahování pomocí protokolů HTTP, HTTPS a FTP.

Mezi nejvýznamnější funkce, které nabízí wget existuje možnost snadného rekurzivního stahování komplexních zrcadel, konverze odkazů k lokálnímu zobrazení obsahu HTML, podpora proxy ...

De wget Už jsme toho tady namluvili dost DesdeLinux. Ve skutečnosti ya Viděli jsme, jak stáhnout kompletní web s wget, problém je v tom, že v dnešní době administrátoři neumožňují vždy komukoli stáhnout celý jejich web jen tak, není to něco, co by se jim opravdu líbilo ... a samozřejmě to chápu. Stránka je na internetu, aby ji mohla konzultovat, čtenář přistupuje k obsahu, který vás zajímá, a administrátor stránky finančně výhodně (prostřednictvím reklamy), jako jsou návštěvy atd. Pokud si čtenář stáhne web do svého počítače, nebude muset chodit online, aby si mohl prohlédnout předchozí příspěvek.

Stažení webu pomocí wget je stejně jednoduché jako:

wget -r -k http://www.sitio.com

-r : To znamená, že bude stažen celý web.
-k : To znamená, že odkazy staženého webu budou převedeny tak, aby byly viditelné na počítačích bez internetu.

Nyní se věci komplikují, když nám administrátor webu ztěžuje ...

Jaká omezení mohou existovat?

Nejběžnější, co můžeme zjistit, je, že přístup na web je povolen, pouze pokud máte uznaného UserAgenta. Jinými slovy, web rozpozná, že UserAgent, který stahuje tolik stránek, není jednou z „normálních“, a proto uzavře přístup.

Prostřednictvím souboru robots.txt můžete také zadat tento wget (jako spousta dalších podobných aplikací) Nebudete moci stahovat, jak si klient přeje, no ... no, chce to administrátor stránek, tečka 😀

Jak obejít tato omezení?

V prvním případě vytvoříme UserAgent pro wget, můžeme to udělat s možností –Uživatelský agent, zde vám ukážu jak:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Chcete-li soubor robots.txt obejít, jednoduše tento soubor vyloučte, to znamená, že nechte wget stáhnout web a je jedno, co říká soubor robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Nyní ... existují další možnosti nebo parametry, které můžeme použít, abychom web ještě více oklamali, například naznačují, že vstupujeme na web z Google, zde nechávám poslední řádek se vším:

wget --header = "Přijmout: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Není povinné, aby web na začátku obsahoval http: // www, může to být jeden přímo http: // jako například tento geometrie Dash

Je v pořádku to dělat?

To záleží ... vždy to musíte vidět z obou pohledů, od správce webu, ale také od čtenáře.

Na jedné straně by se mi jako administrátorovi nelíbilo, že berou HTML kopii mého webu jen tak, je to tady online ne pro potěšení, pro potěšení všech ... naším cílem je mít zajímavý obsah k dispozici, které se můžete naučit.

Ale na druhou stranu ... jsou uživatelé, kteří doma nemají internet, kteří by chtěli mít celou sekci Tutoriály, kterou jsme sem umístili ... Vložil jsem se na jejich místo (ve skutečnosti jsem, protože doma nemám internet) a není příjemné být na počítači, mít problém nebo chtít něco udělat a neumět, protože nemáte přístup k síti sítí.

Ať už je to správné nebo špatné, záleží na každém správci, realitě každého ... co by mě nejvíc znepokojovalo, by byla spotřeba zdrojů, kterou wget na serveru způsobuje, ale s dobrým systémem mezipaměti by to mělo stačit pro server netrpět.

Závěry

Žádám vás, abyste nyní nezačínali stahovat. DesdeLinux HA HA HA!! Moje přítelkyně mě například požádala, abych si stáhl nějaké Cheaty Geometry Dash (něco jako Cheaty Geometry Dash), nebudu stahovat celý web, ale jen otevřu požadovanou stránku a uložím ji do PDF nebo HTML nebo tak něco, že Tohle je co bych ti doporučil.

Pokud máte nějaký tutoriál DesdeLinux které chcete uložit, uložte si to do záložek, jako HTML nebo PDF... ale pro jeden nebo dva tutoriály není nutné generovat nadměrný provoz a spotřebu na serveru 😉

No nic, doufám, že je to užitečné ... Zdravím

Zanechte svůj komentář Zrušit odpověď

eliotime3000 řekl
před 10 let

Zajímavý tip. Nevěděl jsem, že to dokážeš.

Odpovědět eliotime3000
Emmanuel řekl
před 10 let

Je to výslovně to, co se mi stalo dvakrát, a bylo to jistě kvůli tomu. Přesto jsem chtěl z důvodu rychlosti (domácí vs. univerzitní) získat přístup k obsahu tímto způsobem. 😛
Díky za radu. Pozdravy.

Odpovědět Emmanuelovi
Gerardo řekl
před 10 let

Skvělé pro ty z nás, kteří nemají internet. Určitě dobré návody.

Odpověď Gerardovi
Quinotto řekl
před 10 let

Velmi zajímavý článek.
Otázka: Jak to lze udělat pro stránky https?
Kde je vyžadována autentizace pomocí uživatelského jména a hesla a také velká část stránek je napsána v java?
Zdravím a díky

Odpovědět Quinotto
Gelibraselný řekl
před 10 let

a kde jsou stažené soubory uloženy?

Odpovězte na Gelibasio
1. Gelibraselný řekl
  před 10 let
  
  Odpovídám si: v osobní složce. Nyní ale otázka zní ... můžete mu nějak říct, kam si má stáhnout obsah?
  
  graciass
  
  Odpovězte na Gelibasio
  1. Daniel řekl
    před 10 let
    
    Myslím, že nejprve otevřete složku, kam ji chcete uložit, a poté spustíte wget
    
    Odpovězte Danielovi
Cristian řekl
před 10 let

dotaz ... a něco takového bude klonovat databázi

Odpovědět cristian
xphnx řekl
před 10 let

Zajímalo by mě, dostáváte peníze za umisťování těchto odkazů na weby s mikro výklenky?

Odpovědět na xphnx
Ruperte řekl
před 10 let

Požehnaný wget ... tak jsem si stáhl hodně porna v mých prasečích časech xD

Odpovědět Ruperto
Alunado řekl
před 10 let

dobrý tip. dík

Odpovědět alunado
NULL řekl
před 10 let

Velmi dobře, část o obcházení omezení se mi líbila.

Odpověď na NULL
Franz řekl
před 10 let

Díky za ten klenot:
wget –header = »Přijmout: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = vypnuto

wget –header = »Přijmout: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = vypnuto

wget –header = »Přijmout: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = vypnuto

Odpověď Franzovi
Palomares řekl
před 10 let

Velmi zajímavé.

Odpověď Palomaresovi
oscarové meze řekl
před 10 let

wget je jedním z těch ultra výkonných nástrojů, s trochou programování terminálu můžete vytvořit svého vlastního robota ve stylu google, který začne stahovat obsah stránek a ukládat jej do své vlastní databáze a dělat s těmito daty cokoli později

Odpověď Oscarovi Mezovi
Carlos G. řekl
před 9 let

Považuji tento nástroj za velmi zajímavý, nikdy jsem nevěnoval pozornost jeho parametrům, chtěl bych vědět, jestli si můžete stáhnout obsah ze stránky «X», na kterou je třeba se přihlásit, a pokud je někde na tomto webu « X "existuje nějaké video, stáhl bych si ho také, i když patří jinému CDN, než je web" X "?

Pokud by to bylo možné, jak chrání web před takovým nástrojem?

Zdravím!

Odpověď Carlosovi G.
Erick zanardi řekl
před 9 let

Dobrou noc:

Píšu vám o konzultaci. Stáhl jsem s posledním příkazem tohoto článku, téměř 300 MB informací .. soubory .swf, .js, .html, ze stránky http://www.netacad.com/es s mým uživatelem z malého kurzu, který jsem absolvoval v Maracay ve Venezuele.

Moje otázka zní ... Bude možné vidět flash animace?

Zadám „Globální konfigurace“ a možnosti, které zobrazuje, mi nic nedovolí konfigurovat.

Oceňuji jakoukoli odpověď.

Díky předem!

Odpověď Ericku Zanardimu
1. ADX řekl
  před 9 let
  
  Mám stejný detail, soubory SWF jsou staženy napůl, pokud se vám to podaří přeskočit, sdílejte mi informace. To, co jsem udělal naposledy, bylo použít pavouka k získání všech odkazů netacad, ale stále .swf nedokončí stahování tak, jak by mělo
  
  Odpovědět ADX
alexander.hernandez řekl
před 8 let

velmi dobře !!! dík.

Odpovědět alejandro.hernandez
Ann řekl
před 8 let

Dobrý den, děkuji za vaši tuto. Snažím se stáhnout blog, do kterého jsem pozván, s heslem, abych si jej mohl přečíst z domova offline. Používám tento program a samozřejmě mám heslo blogu (wordpress), ale nevím, jak postupovat. Mohl bys mi ukázat?
Díky předem a s pozdravem!

Odpovědět Ana
Fran řekl
před 7 let

jaký skvělý příspěvek !!!

Odpovědět Fran
Santiago řekl
před 7 let

vynikající, hodně mi to sloužilo

Odpovědět Santiagu
Fran řekl
před 7 let

Jsem přihlášen na webovou stránku s vloženými videi vimeo a neexistuje způsob, jak je stáhnout ... zdá se, jako by je vimeo chránilo. Nějaké nápady??

Odpovědět Fran