Stáhněte si celý web s wget, i když existují omezení

Co je to Wget?

Nic lepšího než Wikipedia vysvětlit, z čeho se tento nástroj skládá:

GNU Wget je bezplatný softwarový nástroj, který umožňuje snadné stahování obsahu z webových serverů. Jeho název je odvozen od World Wide Web (w) a od „get“ (v angličtině get), to znamená: get from the WWW.

V současné době podporuje stahování pomocí protokolů HTTP, HTTPS a FTP.

Mezi nejvýznamnější funkce, které nabízí wget existuje možnost snadného rekurzivního stahování komplexních zrcadel, konverze odkazů k lokálnímu zobrazení obsahu HTML, podpora proxy ...

De wget Už jsme toho tady namluvili dost DesdeLinux. Ve skutečnosti ya Viděli jsme, jak stáhnout kompletní web s wget, problém je v tom, že v dnešní době administrátoři neumožňují vždy komukoli stáhnout celý jejich web jen tak, není to něco, co by se jim opravdu líbilo ... a samozřejmě to chápu. Stránka je na internetu, aby ji mohla konzultovat, čtenář přistupuje k obsahu, který vás zajímá, a administrátor stránky finančně výhodně (prostřednictvím reklamy), jako jsou návštěvy atd. Pokud si čtenář stáhne web do svého počítače, nebude muset chodit online, aby si mohl prohlédnout předchozí příspěvek.

Stažení webu pomocí wget je stejně jednoduché jako:

wget -r -k http://www.sitio.com

  • -r : To znamená, že bude stažen celý web.
  • -k : To znamená, že odkazy staženého webu budou převedeny tak, aby byly viditelné na počítačích bez internetu.

Nyní se věci komplikují, když nám administrátor webu ztěžuje ...

Jaká omezení mohou existovat?

Nejběžnější, co můžeme zjistit, je, že přístup na web je povolen, pouze pokud máte uznaného UserAgenta. Jinými slovy, web rozpozná, že UserAgent, který stahuje tolik stránek, není jednou z „normálních“, a proto uzavře přístup.

Prostřednictvím souboru robots.txt můžete také zadat tento wget (jako spousta dalších podobných aplikací) Nebudete moci stahovat, jak si klient přeje, no ... no, chce to administrátor stránek, tečka 😀

Jak obejít tato omezení?

V prvním případě vytvoříme UserAgent pro wget, můžeme to udělat s možností –Uživatelský agent, zde vám ukážu jak:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Chcete-li soubor robots.txt obejít, jednoduše tento soubor vyloučte, to znamená, že nechte wget stáhnout web a je jedno, co říká soubor robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Nyní ... existují další možnosti nebo parametry, které můžeme použít, abychom web ještě více oklamali, například naznačují, že vstupujeme na web z Google, zde nechávám poslední řádek se vším:

wget --header = "Přijmout: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Není povinné, aby web na začátku obsahoval http: // www, může to být jeden přímo http: // jako například tento geometrie Dash

Je v pořádku to dělat?

To záleží ... vždy to musíte vidět z obou pohledů, od správce webu, ale také od čtenáře.

Na jedné straně by se mi jako administrátorovi nelíbilo, že berou HTML kopii mého webu jen tak, je to tady online ne pro potěšení, pro potěšení všech ... naším cílem je mít zajímavý obsah k dispozici, které se můžete naučit.

Ale na druhou stranu ... jsou uživatelé, kteří doma nemají internet, kteří by chtěli mít celou sekci Tutoriály, kterou jsme sem umístili ... Vložil jsem se na jejich místo (ve skutečnosti jsem, protože doma nemám internet) a není příjemné být na počítači, mít problém nebo chtít něco udělat a neumět, protože nemáte přístup k síti sítí.

Ať už je to správné nebo špatné, záleží na každém správci, realitě každého ... co by mě nejvíc znepokojovalo, by byla spotřeba zdrojů, kterou wget na serveru způsobuje, ale s dobrým systémem mezipaměti by to mělo stačit pro server netrpět.

Internet

Závěry

Žádám vás, abyste nyní nezačínali stahovat. DesdeLinux HA HA HA!! Moje přítelkyně mě například požádala, abych si stáhl nějaké Cheaty Geometry Dash (něco jako Cheaty Geometry Dash), nebudu stahovat celý web, ale jen otevřu požadovanou stránku a uložím ji do PDF nebo HTML nebo tak něco, že Tohle je co bych ti doporučil.

Pokud máte nějaký tutoriál DesdeLinux které chcete uložit, uložte si to do záložek, jako HTML nebo PDF... ale pro jeden nebo dva tutoriály není nutné generovat nadměrný provoz a spotřebu na serveru 😉

No nic, doufám, že je to užitečné ... Zdravím


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.

  1.   eliotime3000 řekl

    Zajímavý tip. Nevěděl jsem, že to dokážeš.

  2.   Emmanuel řekl

    Je to výslovně to, co se mi stalo dvakrát, a bylo to jistě kvůli tomu. Přesto jsem chtěl z důvodu rychlosti (domácí vs. univerzitní) získat přístup k obsahu tímto způsobem. 😛
    Díky za radu. Pozdravy.

  3.   Gerardo řekl

    Skvělé pro ty z nás, kteří nemají internet. Určitě dobré návody.

  4.   Quinotto řekl

    Velmi zajímavý článek.
    Otázka: Jak to lze udělat pro stránky https?
    Kde je vyžadována autentizace pomocí uživatelského jména a hesla a také velká část stránek je napsána v java?
    Zdravím a díky

  5.   Gelibraselný řekl

    a kde jsou stažené soubory uloženy?

    1.    Gelibraselný řekl

      Odpovídám si: v osobní složce. Nyní ale otázka zní ... můžete mu nějak říct, kam si má stáhnout obsah?

      graciass

      1.    Daniel řekl

        Myslím, že nejprve otevřete složku, kam ji chcete uložit, a poté spustíte wget

  6.   Cristian řekl

    dotaz ... a něco takového bude klonovat databázi

  7.   xphnx řekl

    Zajímalo by mě, dostáváte peníze za umisťování těchto odkazů na weby s mikro výklenky?

  8.   Ruperte řekl

    Požehnaný wget ... tak jsem si stáhl hodně porna v mých prasečích časech xD

  9.   Alunado řekl

    dobrý tip. dík

  10.   NULL řekl

    Velmi dobře, část o obcházení omezení se mi líbila.

  11.   Franz řekl

    Díky za ten klenot:
    wget –header = »Přijmout: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = vypnuto

    wget –header = »Přijmout: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = vypnuto

    wget –header = »Přijmout: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = vypnuto

  12.   Palomares řekl

    Velmi zajímavé.

  13.   oscarové meze řekl

    wget je jedním z těch ultra výkonných nástrojů, s trochou programování terminálu můžete vytvořit svého vlastního robota ve stylu google, který začne stahovat obsah stránek a ukládat jej do své vlastní databáze a dělat s těmito daty cokoli později

  14.   Carlos G. řekl

    Považuji tento nástroj za velmi zajímavý, nikdy jsem nevěnoval pozornost jeho parametrům, chtěl bych vědět, jestli si můžete stáhnout obsah ze stránky «X», na kterou je třeba se přihlásit, a pokud je někde na tomto webu « X "existuje nějaké video, stáhl bych si ho také, i když patří jinému CDN, než je web" X "?

    Pokud by to bylo možné, jak chrání web před takovým nástrojem?

    Zdravím!

  15.   Erick zanardi řekl

    Dobrou noc:

    Píšu vám o konzultaci. Stáhl jsem s posledním příkazem tohoto článku, téměř 300 MB informací .. soubory .swf, .js, .html, ze stránky http://www.netacad.com/es s mým uživatelem z malého kurzu, který jsem absolvoval v Maracay ve Venezuele.

    Moje otázka zní ... Bude možné vidět flash animace?

    Zadám „Globální konfigurace“ a možnosti, které zobrazuje, mi nic nedovolí konfigurovat.

    Oceňuji jakoukoli odpověď.

    Díky předem!

    1.    ADX řekl

      Mám stejný detail, soubory SWF jsou staženy napůl, pokud se vám to podaří přeskočit, sdílejte mi informace. To, co jsem udělal naposledy, bylo použít pavouka k získání všech odkazů netacad, ale stále .swf nedokončí stahování tak, jak by mělo

  16.   alexander.hernandez řekl

    velmi dobře !!! dík.

  17.   Ann řekl

    Dobrý den, děkuji za vaši tuto. Snažím se stáhnout blog, do kterého jsem pozván, s heslem, abych si jej mohl přečíst z domova offline. Používám tento program a samozřejmě mám heslo blogu (wordpress), ale nevím, jak postupovat. Mohl bys mi ukázat?
    Díky předem a s pozdravem!

  18.   Fran řekl

    jaký skvělý příspěvek !!!

  19.   Santiago řekl

    vynikající, hodně mi to sloužilo

  20.   Fran řekl

    Jsem přihlášen na webovou stránku s vloženými videi vimeo a neexistuje způsob, jak je stáhnout ... zdá se, jako by je vimeo chránilo. Nějaké nápady??