Co je to Wget?
Nic lepšího než Wikipedia vysvětlit, z čeho se tento nástroj skládá:
GNU Wget je bezplatný softwarový nástroj, který umožňuje snadné stahování obsahu z webových serverů. Jeho název je odvozen od World Wide Web (w) a od „get“ (v angličtině get), to znamená: get from the WWW.
V současné době podporuje stahování pomocí protokolů HTTP, HTTPS a FTP.
Mezi nejvýznamnější funkce, které nabízí wget existuje možnost snadného rekurzivního stahování komplexních zrcadel, konverze odkazů k lokálnímu zobrazení obsahu HTML, podpora proxy ...
De wget Už jsme toho tady namluvili dost DesdeLinux. Ve skutečnosti ya Viděli jsme, jak stáhnout kompletní web s wget, problém je v tom, že v dnešní době administrátoři neumožňují vždy komukoli stáhnout celý jejich web jen tak, není to něco, co by se jim opravdu líbilo ... a samozřejmě to chápu. Stránka je na internetu, aby ji mohla konzultovat, čtenář přistupuje k obsahu, který vás zajímá, a administrátor stránky finančně výhodně (prostřednictvím reklamy), jako jsou návštěvy atd. Pokud si čtenář stáhne web do svého počítače, nebude muset chodit online, aby si mohl prohlédnout předchozí příspěvek.
Stažení webu pomocí wget je stejně jednoduché jako:
wget -r -k http://www.sitio.com
- -r : To znamená, že bude stažen celý web.
- -k : To znamená, že odkazy staženého webu budou převedeny tak, aby byly viditelné na počítačích bez internetu.
Nyní se věci komplikují, když nám administrátor webu ztěžuje ...
Jaká omezení mohou existovat?
Nejběžnější, co můžeme zjistit, je, že přístup na web je povolen, pouze pokud máte uznaného UserAgenta. Jinými slovy, web rozpozná, že UserAgent, který stahuje tolik stránek, není jednou z „normálních“, a proto uzavře přístup.
Prostřednictvím souboru robots.txt můžete také zadat tento wget (jako spousta dalších podobných aplikací) Nebudete moci stahovat, jak si klient přeje, no ... no, chce to administrátor stránek, tečka 😀
Jak obejít tato omezení?
V prvním případě vytvoříme UserAgent pro wget, můžeme to udělat s možností –Uživatelský agent, zde vám ukážu jak:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Chcete-li soubor robots.txt obejít, jednoduše tento soubor vyloučte, to znamená, že nechte wget stáhnout web a je jedno, co říká soubor robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off
Nyní ... existují další možnosti nebo parametry, které můžeme použít, abychom web ještě více oklamali, například naznačují, že vstupujeme na web z Google, zde nechávám poslední řádek se vším:
wget --header = "Přijmout: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k
Je v pořádku to dělat?
To záleží ... vždy to musíte vidět z obou pohledů, od správce webu, ale také od čtenáře.
Na jedné straně by se mi jako administrátorovi nelíbilo, že berou HTML kopii mého webu jen tak, je to tady online ne pro potěšení, pro potěšení všech ... naším cílem je mít zajímavý obsah k dispozici, které se můžete naučit.
Ale na druhou stranu ... jsou uživatelé, kteří doma nemají internet, kteří by chtěli mít celou sekci Tutoriály, kterou jsme sem umístili ... Vložil jsem se na jejich místo (ve skutečnosti jsem, protože doma nemám internet) a není příjemné být na počítači, mít problém nebo chtít něco udělat a neumět, protože nemáte přístup k síti sítí.
Ať už je to správné nebo špatné, záleží na každém správci, realitě každého ... co by mě nejvíc znepokojovalo, by byla spotřeba zdrojů, kterou wget na serveru způsobuje, ale s dobrým systémem mezipaměti by to mělo stačit pro server netrpět.
Závěry
Žádám vás, abyste nyní nezačínali stahovat. DesdeLinux HA HA HA!! Moje přítelkyně mě například požádala, abych si stáhl nějaké Cheaty Geometry Dash (něco jako Cheaty Geometry Dash), nebudu stahovat celý web, ale jen otevřu požadovanou stránku a uložím ji do PDF nebo HTML nebo tak něco, že Tohle je co bych ti doporučil.
Pokud máte nějaký tutoriál DesdeLinux které chcete uložit, uložte si to do záložek, jako HTML nebo PDF... ale pro jeden nebo dva tutoriály není nutné generovat nadměrný provoz a spotřebu na serveru 😉
No nic, doufám, že je to užitečné ... Zdravím
Zajímavý tip. Nevěděl jsem, že to dokážeš.
Je to výslovně to, co se mi stalo dvakrát, a bylo to jistě kvůli tomu. Přesto jsem chtěl z důvodu rychlosti (domácí vs. univerzitní) získat přístup k obsahu tímto způsobem. 😛
Díky za radu. Pozdravy.
Skvělé pro ty z nás, kteří nemají internet. Určitě dobré návody.
Velmi zajímavý článek.
Otázka: Jak to lze udělat pro stránky https?
Kde je vyžadována autentizace pomocí uživatelského jména a hesla a také velká část stránek je napsána v java?
Zdravím a díky
a kde jsou stažené soubory uloženy?
Odpovídám si: v osobní složce. Nyní ale otázka zní ... můžete mu nějak říct, kam si má stáhnout obsah?
graciass
Myslím, že nejprve otevřete složku, kam ji chcete uložit, a poté spustíte wget
dotaz ... a něco takového bude klonovat databázi
Zajímalo by mě, dostáváte peníze za umisťování těchto odkazů na weby s mikro výklenky?
Požehnaný wget ... tak jsem si stáhl hodně porna v mých prasečích časech xD
dobrý tip. dík
Velmi dobře, část o obcházení omezení se mi líbila.
Díky za ten klenot:
wget –header = »Přijmout: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = vypnuto
wget –header = »Přijmout: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = vypnuto
wget –header = »Přijmout: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = vypnuto
Velmi zajímavé.
wget je jedním z těch ultra výkonných nástrojů, s trochou programování terminálu můžete vytvořit svého vlastního robota ve stylu google, který začne stahovat obsah stránek a ukládat jej do své vlastní databáze a dělat s těmito daty cokoli později
Považuji tento nástroj za velmi zajímavý, nikdy jsem nevěnoval pozornost jeho parametrům, chtěl bych vědět, jestli si můžete stáhnout obsah ze stránky «X», na kterou je třeba se přihlásit, a pokud je někde na tomto webu « X "existuje nějaké video, stáhl bych si ho také, i když patří jinému CDN, než je web" X "?
Pokud by to bylo možné, jak chrání web před takovým nástrojem?
Zdravím!
Dobrou noc:
Píšu vám o konzultaci. Stáhl jsem s posledním příkazem tohoto článku, téměř 300 MB informací .. soubory .swf, .js, .html, ze stránky http://www.netacad.com/es s mým uživatelem z malého kurzu, který jsem absolvoval v Maracay ve Venezuele.
Moje otázka zní ... Bude možné vidět flash animace?
Zadám „Globální konfigurace“ a možnosti, které zobrazuje, mi nic nedovolí konfigurovat.
Oceňuji jakoukoli odpověď.
Díky předem!
Mám stejný detail, soubory SWF jsou staženy napůl, pokud se vám to podaří přeskočit, sdílejte mi informace. To, co jsem udělal naposledy, bylo použít pavouka k získání všech odkazů netacad, ale stále .swf nedokončí stahování tak, jak by mělo
velmi dobře !!! dík.
Dobrý den, děkuji za vaši tuto. Snažím se stáhnout blog, do kterého jsem pozván, s heslem, abych si jej mohl přečíst z domova offline. Používám tento program a samozřejmě mám heslo blogu (wordpress), ale nevím, jak postupovat. Mohl bys mi ukázat?
Díky předem a s pozdravem!
jaký skvělý příspěvek !!!
vynikající, hodně mi to sloužilo
Jsem přihlášen na webovou stránku s vloženými videi vimeo a neexistuje způsob, jak je stáhnout ... zdá se, jako by je vimeo chránilo. Nějaké nápady??