Stiahnite si celú stránku s wget, aj keď existujú obmedzenia

Čo je to wget?

Nič lepšie ako Wikipedia vysvetliť, z čoho tento nástroj pozostáva:

GNU Wget je bezplatný softvérový nástroj, ktorý umožňuje jednoduché sťahovanie obsahu z webových serverov. Jeho názov je odvodený od World Wide Web (w) a od „get“ (v angličtine get), to znamená: get from WWW.

V súčasnosti podporuje sťahovanie pomocou protokolov HTTP, HTTPS a FTP.

Medzi najvýznamnejšie funkcie, ktoré ponúka wget je tu možnosť ľahkého rekurzívneho sťahovania zložitých zrkadiel, konverzie odkazov na lokálne zobrazovanie obsahu HTML, podpora proxy ...

De wget Už sme toho tu nahovorili dosť DesdeLinux. v skutočnosti ya Videli sme, ako sa dá stiahnuť kompletný web pomocou wget, problém je v tom, že v dnešnej dobe správcovia nie vždy umožňujú komukoľvek stiahnuť si celý svoj web len tak, nejde o niečo, čo by sa mu skutočne páčilo ... a samozrejme tomu rozumiem. Stránka je na internete, aby ju mohla konzultovať, čitateľ má prístup k záujmovému obsahu a správca stránky má z nej finančný prospech (prostredníctvom reklamy), napríklad návštevy atď. Ak si čitateľ stiahne stránku do svojho počítača, nebude musieť prejsť na online server, aby si prečítal minulý príspevok.

Stiahnutie stránok pomocou wget je také jednoduché ako:

wget -r -k http://www.sitio.com

  • -r : Znamená to, že sa stiahne celá webová stránka.
  • -k : To znamená, že odkazy zo stiahnutej stránky sa skonvertujú tak, aby ich bolo možné vidieť v počítačoch bez internetu.

Teraz sa veci komplikujú, keď nám administrátor stránky sťažuje ...

Aké obmedzenia môžu existovať?

Najbežnejšie, čo môžeme nájsť, je to, že prístup na web je povolený, iba ak máte uznávaného UserAgenta. Inými slovami, web rozpozná, že UserAgent, ktorý sťahuje toľko stránok, nie je jedným z „bežných“, a preto k nemu zatvorí prístup.

Tento súbor wget môžete určiť aj prostredníctvom súboru robots.txt (ako veľa ďalších podobných aplikácií) Nebudete môcť sťahovať, ako si klient želá, dobre ... no, chce to administrátor stránky, bodka 😀

Ako tieto obmedzenia obísť?

V prvom prípade založíme UserAgent pre wget, môžeme to urobiť pomocou možnosti –Užívateľský agent, tu ti ukážem ako:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Ak sa chcete v súbore robots.txt zorientovať, jednoducho tento súbor vylúčte, to znamená, nech si web wget stiahne a nezaujíma ho, čo hovorí robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = vypnuté

Teraz ... existujú ďalšie možnosti alebo parametre, pomocou ktorých môžeme web ešte viac oklamať, napríklad naznačiť, že na web vstupujeme z Googlu, tu nechávam posledný riadok so všetkým:

wget --header = "Prijať: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Nie je povinné, aby web na začiatku obsahoval http: // www, môže to byť jeden priamo http: // ako napríklad tento geometria Dash

Je v poriadku to robiť?

To záleží ... vždy to musíte vidieť z oboch uhlov pohľadu, od správcu stránky, ale aj od čitateľa.

Na jednej strane by sa mi ako administrátorovi nepáčilo, že berú HTML kópiu mojej stránky len tak, je to tu online nie pre potešenie, pre potešenie všetkých ... naším cieľom je mať k dispozícii zaujímavý obsah, ktorý sa môžeš naučiť.

Ale na druhej strane ... sú používatelia, ktorí doma nemajú internet, ktorí by chceli mať celú sekciu Tutoriály, ktorú sme sem umiestnili ... Ja som sa dal na ich miesto (v skutočnosti som, pretože doma nemám internet) a nie je nič príjemné byť na počítači, mať problém alebo chcieť niečo robiť a nebyť schopný, pretože nemáte prístup k sieti sietí.

Či je to správne alebo nesprávne, je na každom správcovi, realite každého človeka ... to, čo by ma najviac znepokojovalo, by bola spotreba zdrojov, ktorú wget spôsobuje na serveri, ale s dobrým systémom vyrovnávacej pamäte by to malo stačiť na server netrpí.

internet

Závery

Žiadam vás, aby ste teraz nezačali sťahovať. DesdeLinux HA HA HA!! Napríklad moja priateľka ma požiadala, aby som si stiahol nejaké Cheaty Geometry Dash (niečo ako Cheaty Geometry Dash), nebudem sťahovať celú webovú stránku, ale len otvorím požadovanú stránku a uložím ju do PDF alebo HTML alebo tak nejako, že Toto je čo by som ti odporučil.

Ak máte nejaký návod DesdeLinux ktoré chcete uložiť, uložte si to do záložiek, ako HTML alebo PDF... ale na jeden alebo dva tutoriály nie je potrebné generovať nadmernú návštevnosť a spotrebu na serveri 😉

No nič, dúfam, že je to užitočné ... Zdravím vás


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.

  1.   eliotime3000 dijo

    Zaujímavý tip. Nevedel som, že to dokážeš.

  2.   Emmanuel dijo

    Je to výslovne to, čo sa mi stalo dvakrát, a bolo to určite kvôli tomu. Aj napriek tomu som chcel z dôvodu rýchlosti (domáci vs. univerzitný) získať prístup k obsahu týmto spôsobom. 😛
    Ďakujem za radu. S pozdravom.

  3.   Gerardo dijo

    Skvelé pre tých z nás, ktorí nemajú internet. Určite dobré návody.

  4.   Quinotto dijo

    Veľmi zaujímavý článok.
    Otázka: Ako je to možné pre stránky https?
    Kde sa vyžaduje autentifikácia pomocou používateľského mena a hesla a tiež veľká časť stránok je napísaná v jazyku Java?
    Zdravím a ďakujem

  5.   Gél draselný dijo

    a kde sú uložené stiahnuté súbory?

    1.    Gél draselný dijo

      Odpovedám si: v osobnom priečinku. Teraz však otázka znie ... viete mu nejako povedať, kde si má stiahnuť obsah?

      Vďaka

      1.    daniel dijo

        Myslím, že najskôr vstúpite do priečinka, kam ho chcete uložiť, a potom spustíte wget

  6.   Cristian dijo

    dopyt ... a bude niečo také na „klonovanie“ databázy

  7.   xphnx dijo

    Mám zvedavosť, dostávate peniaze za umiestnenie týchto odkazov na weby mikro výklenkov?

  8.   Rupert dijo

    Požehnaná čarodejnica ... tak som si stiahla veľa porna v mojich prasacích časoch xD

  9.   mesačný dijo

    dobrý tip. Vďaka

  10.   NULOVÝ dijo

    Veľmi dobre, páčila sa mi časť o obchádzaní obmedzení.

  11.   Franz dijo

    Ďakujem za tento klenot:
    wget –header = »Prijať: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboty = vypnuté

    wget –header = »Prijať: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboty = vypnuté

    wget –header = »Prijať: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboty = vypnuté

  12.   Holubníky dijo

    Veľmi zaujímavé.

  13.   oscar mez dijo

    wget je jedným z tých ultra výkonných nástrojov. Vďaka malému programovaniu terminálu môžete vytvoriť svojho vlastného robota v štýle google, ktorý začne sťahovať obsah stránok a ukladať ich do vlastnej databázy. S týmito údajmi môžete robiť, čo chcete.

  14.   Carlos G. dijo

    Považujem tento nástroj za veľmi zaujímavý, nikdy som nevenoval pozornosť jeho parametrom, zaujímalo by ma, či je možné stiahnuť obsah zo stránky «X», na ktorú je potrebné sa prihlásiť, aby ste mohli vstúpiť, a či sa niekde nachádza na tomto webe «X» je nejaké video, stiahol by som si ho aj keď patrí do iného CDN ako je stránka «X»?

    Ak by to bolo možné, ako chráni web pred takýmto nástrojom?

    Zdravím!

  15.   Erick zanardi dijo

    Dobrú noc:

    Píšem vám o konzultáciu. Stiahol som posledným príkazom tohto článku, takmer 300 MB informácií .. súbory .swf, .js, .html, zo stránky http://www.netacad.com/es s mojím používateľom z malého kurzu, ktorý som absolvoval vo Venezuele v Maracay.

    Moja otázka je ... Bude možné vidieť flash animácie?

    Zadám „Globálna konfigurácia“ a možnosti, ktoré nezobrazuje, mi umožňujú konfiguráciu.

    Vážim si každú reakciu.

    Vďaka vopred!

    1.    ADX dijo

      Mám rovnaký detail, súbory .swf sú stiahnuté na polovicu, ak to stihnete preskočiť, zdieľajte mi informácie. To, čo som urobil naposledy, bolo použiť pavúka na získanie všetkých odkazov na netacad, ale súbor .swf stále nedokončí sťahovanie tak, ako by mal

  16.   alexander.hernandez dijo

    veľmi dobre !!! Vďaka.

  17.   ana dijo

    Ahoj, ďakujem za tvoju tu. Pokúšam sa stiahnuť blog, do ktorého som pozvaný, s heslom, aby som si ho mohol prečítať z domu bez pripojenia. Používam tento program a samozrejme mám heslo blogu (wordpress), ale neviem, ako postupovať. Môžeš mi to ukázať?
    Ďakujem vopred a s pozdravom!

  18.   fran dijo

    aký skvelý príspevok !!!

  19.   Santiago dijo

    vynikajúce poslúžilo mi veľa

  20.   fran dijo

    Som prihlásený na webovú stránku s vloženými videami vimeo a neexistuje spôsob, ako by sa dali stiahnuť. Zdá sa, akoby ich mal vimeo chránené. Nejaké nápady??