S terminálem: Stáhněte si kompletní web s Wget

Nic lepšího než Wikipedia vysvětlit, z čeho se tento nástroj skládá:

GNU Wget je bezplatný softwarový nástroj, který umožňuje snadné stahování obsahu z webových serverů. Jeho název je odvozen od World Wide Web (w) a od „get“ (v angličtině get), to znamená: get from the WWW.

V současné době podporuje stahování pomocí protokolů HTTP, HTTPS a FTP.

Mezi nejvýznamnější funkce, které nabízí wget existuje možnost snadného rekurzivního stahování komplexních zrcadel, konverze odkazů k lokálnímu zobrazení obsahu HTML, podpora proxy ...

Je pravda, že existují další aplikace, které nám pomáhají provádět tento typ práce, jako například httrack nebo dokonce rozšíření pro Firefox jak Scrapbook, ale nic jako jednoduchost terminálu 😀

Dělat kouzlo

Byl jsem zvědavý na film: Sociální síť, jako postava Mark Zuckerberg použijte frázi: «Trochu magického wgetu«, Když jsem se chystal stáhnout fotky pro Facemash 😀 a je to pravda, wget vám umožní kouzlit se správnými parametry.

Podívejme se na několik příkladů, začněme jednoduchým použitím nástroje.

Chcete-li přejít o stránku dolů:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Chcete-li rekurzivně stáhnout celý web, včetně obrázků a dalších typů dat:

$ wget -r https://blog.desdelinux.net/

A tady přichází kouzlo. Jak je vysvětleno v článku Lidémnoho webů ověřuje identitu prohlížeče, aby uplatnilo různá omezení. S Wget můžeme to obejít následujícím způsobem:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Nebo se také můžeme mezi každou stránkou pozastavit, jinak si vlastník webu může uvědomit, že web stahujeme úplně pomocí Wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.

  1.   pandev92 řekl

    Je něco ke stažení pouze obrázků xd?

    1.    Odvaha řekl

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Že jsem ti přečetl myšlenky hahahaha

      1.    pandev92 řekl

        lol oo xd

    2.    KZKG ^ Gaara řekl

      muž wget 😉

      1.    pandev92 řekl

        Život je příliš krátký na to, aby člověk četl.

        1.    KZKG ^ Gaara řekl

          Život je příliš krátký na to, aby naplnil mozek informacemi, ale je stále platné to zkoušet 🙂

          1.    pandev92 řekl

            Informace stojí za polovinu, raději je vyplňuji ženami, hrami a penězi, pokud je to možné XD.

          2.    Odvaha řekl

            Vždycky kurva myslíš na ženy. Od této chvíle budete poslouchat Dadee Yankee, Don Omar a Wisin Y Yandel, jako to dělá KZKG ^ Gaara.

            Věnujte se lépe penězům, což je nejdůležitější věc v tomto životě

            1.    KZKG ^ Gaara řekl

              Existují věci, které mají mnohem větší cenu než peníze ... například být v historii, dělat rozdíly, pamatovat na to, jak moc se vám podařilo přispět světu; a ne za to, kolik peněz jsi měl, když jsi zemřel 😉

              Snažte se nestát mužem úspěchu, ale mužem odvahy, Albert Einsein.


          3.    Odvaha řekl

            A může to žebrák žijící pod mostem udělat, aniž by měl cent?

            No, ne

          4.    Odvaha řekl

            *mít

          5.    pandev92 řekl

            Odvaha, měl jsem svoji reggaetonovou éru a už ne, to bylo před lety, poslouchám jen japonskou hudbu a klasickou hudbu a s penězi ... pracujeme na tom :).

          6.    pandev92 řekl

            Nezáleží mi na tom, abych si pamatoval garu, když zemřu, zemřu a pošukám ostatní, protože nebudu ani schopen vědět, co si o mě myslí. Co stojí za to si pamatovat, ale můžete na to být hrdí xD.

    3.    hypersayan_x řekl

      Ke stažení konkrétního typu souborů můžete použít filtry:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      A tip, pokud se chystáte klonovat velmi velkou stránku, doporučuje se, abyste to provedli prostřednictvím serveru proxy, například tor, protože jinak existují určité stránky, které dosáhly určitého počtu po sobě jdoucích požadavků a blokují vaši IP na několik hodin nebo dní .
      Jindy se mi to stalo, když jsem chtěl klonovat wiki.

    4.    mdir řekl

      Rozšíření, které používám ve Firefoxu, stahuje pouze obrázky; jmenuje se «Uložit obrázky 0.94»

  2.   Pardo řekl

    eh otázka hehe kde jsou uloženy soubory, které stáhnu? Budou mě chtít zabít, že? LOL

    1.    KZKG ^ Gaara řekl

      Při spuštění wgetu se soubory stáhnou do složky, kde se nacházíte v terminálu

  3.   auroszx řekl

    Ahh, nepředstavoval jsem si, že by wget mohl mít tak zajímavé použití ... Nyní, pokud jde o použití, které uvádí Courage ... Žádná slova 😉

  4.   Carlos-Xfce řekl

    Ví někdo, jestli existuje plugin WordPress, který brání Wget ve stahování vašeho blogu?

  5.   Darzee řekl

    No, je to pro mě skvělé !! Děkuji

  6.   piolavski řekl

    Velmi dobře, zkusme zjistit, jak, díky za příspěvek.

  7.   lyairmg řekl

    I když se považuji za začátečníka, je to pro mě snadné, zkusím to kombinovat s jinými věcmi a uvidím, co to dá….

  8.   Oswaldo řekl

    Doufám, že mi pomůžete, protože je na pondělí 3. prosince 2012

    Projekt, který má být vyvinut, je následující:

    Přemístění webové stránky úpravou referencí href.
    1. - Pokud jde o web, stáhněte si celý web do místního adresáře pomocí příkazu wget. A pomocí skriptu svého autorství proveďte následující operace:

    1.1.-Vytvořte nezávislý adresář pro každý typ obsahu: obrázky gif, obrázky jpeg atd., Videa avi, videa mpg atd., Audio mp3, audio wav atd., Webový obsah (HTML, javascript atd.).

    1.2.- Jakmile bude každý z těchto obsahů přemístěn, proveďte úpravu odkazů na místní umístění každého zdroje na webu.

    1.3.-Aktivujte webový server a nakonfigurujte kořenový adresář, ve kterém je umístěna záloha webu, jako kořenový adresář místního webového serveru.

    1.4.-Poznámka: Příkaz wget lze použít pouze s následujícími možnostmi:
    –Rekurzivní
    –Domény
    –Stránka-náležitosti
    Pokud je z nějakého důvodu zapotřebí více příkazů, použijte potřebné.

    1.    KZKG ^ Gaara řekl

      Chcete-li stáhnout zde, myslím, že máte řešení v příspěvku, nyní ... přesunout soubory a nahradit cesty, musel jsem něco takového udělat před nějakou dobou ve své práci, nechám vám skript, který jsem použil: http://paste.desdelinux.net/4670

      Upravíte jej s přihlédnutím k typu souboru a cestě, tj. Způsobu, jakým jsou vytvořeny soubory HTML vašeho webu a podobně.

      Toto není 100% řešení, protože musíte udělat nějaké úpravy nebo změny, ale zaručuji vám, že je to 70 nebo 80% veškeré práce 😉

      1.    Oswaldo řekl

        Díky KZKG ^ Gaara mi byla velkou pomocí

  9.   Dluh řekl

    Vždy jsem používal httrack. Scrapbook pro firefox Zkusím to, ale miluji wget. Děkuji!

  10.   Daniel PZ řekl

    Člověče, příkaz pro mě nefungoval ... tenhle pro mě fungoval dobře:

    wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

    1.    Daniel řekl

      Díky moc! Použil jsem to s parametry navrženými Danielem PZ a neměl jsem žádné problémy 🙂

  11.   Ruben Almaguer řekl

    Díky, chlapče, udělal jsem to s WGet na mém štěně Linuxu, ale nevěděl jsem, jak se to dělá v terminálu pozdrav

  12.   pístudo řekl

    kde máte stránky?

    1.    hache řekl

      Kde máte terminál otevřený. Nejprve v kořenové složce uživatele, pokud neuvedete jinou cestu.

  13.   Fernando řekl

    Také stáhnout odkazy? Pokud tedy existuje odkaz na soubor PDF nebo jiný dokument, stáhnete si jej také?

  14.   Raul řekl

    Co mohu udělat, abych si stáhl celý svůj blog, jsem se snažil a to, co nevidím, se zdá být v kódech nebo blokováno, přestože stahování trvalo mnoho hodin, ale lze přečíst pouze počáteční stránku, kterou doporučuji stáhnout můj blog, díky raul.

  15.   Lev řekl

    ahoj, pochybuji, že je možné nahradit odkazy v html, aby bylo možné později procházet staženou stránku, jako by to byla původní.

    Co se stane, je to, že si stáhnu stránku a když jsem ji otevřel ze stažených souborů, nevzal jsem .css nebo .js a odkazy na stránce mě přivedly na stránku v Internetu.