Stiahnite si celú webovú stránku pomocou wget, aj keď existujú obmedzenia

Stiahnite si celú stránku s wget, aj keď existujú obmedzenia

Čo je to wget?

Nič lepšie ako Wikipedia vysvetliť, z čoho tento nástroj pozostáva:

GNU Wget je bezplatný softvérový nástroj, ktorý umožňuje jednoduché sťahovanie obsahu z webových serverov. Jeho názov je odvodený od World Wide Web (w) a od „get“ (v angličtine get), to znamená: get from WWW.

V súčasnosti podporuje sťahovanie pomocou protokolov HTTP, HTTPS a FTP.

Medzi najvýznamnejšie funkcie, ktoré ponúka wget je tu možnosť ľahkého rekurzívneho sťahovania zložitých zrkadiel, konverzie odkazov na lokálne zobrazovanie obsahu HTML, podpora proxy ...

De wget Už sme toho tu nahovorili dosť DesdeLinux. v skutočnosti ya Videli sme, ako sa dá stiahnuť kompletný web pomocou wget, problém je v tom, že v dnešnej dobe správcovia nie vždy umožňujú komukoľvek stiahnuť si celý svoj web len tak, nejde o niečo, čo by sa mu skutočne páčilo ... a samozrejme tomu rozumiem. Stránka je na internete, aby ju mohla konzultovať, čitateľ má prístup k záujmovému obsahu a správca stránky má z nej finančný prospech (prostredníctvom reklamy), napríklad návštevy atď. Ak si čitateľ stiahne stránku do svojho počítača, nebude musieť prejsť na online server, aby si prečítal minulý príspevok.

Stiahnutie stránok pomocou wget je také jednoduché ako:

wget -r -k http://www.sitio.com

-r : Znamená to, že sa stiahne celá webová stránka.
-k : To znamená, že odkazy zo stiahnutej stránky sa skonvertujú tak, aby ich bolo možné vidieť v počítačoch bez internetu.

Teraz sa veci komplikujú, keď nám administrátor stránky sťažuje ...

Aké obmedzenia môžu existovať?

Najbežnejšie, čo môžeme nájsť, je to, že prístup na web je povolený, iba ak máte uznávaného UserAgenta. Inými slovami, web rozpozná, že UserAgent, ktorý sťahuje toľko stránok, nie je jedným z „bežných“, a preto k nemu zatvorí prístup.

Tento súbor wget môžete určiť aj prostredníctvom súboru robots.txt (ako veľa ďalších podobných aplikácií) Nebudete môcť sťahovať, ako si klient želá, dobre ... no, chce to administrátor stránky, bodka 😀

Ako tieto obmedzenia obísť?

V prvom prípade založíme UserAgent pre wget, môžeme to urobiť pomocou možnosti –Užívateľský agent, tu ti ukážem ako:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Ak sa chcete v súbore robots.txt zorientovať, jednoducho tento súbor vylúčte, to znamená, nech si web wget stiahne a nezaujíma ho, čo hovorí robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = vypnuté

Teraz ... existujú ďalšie možnosti alebo parametre, pomocou ktorých môžeme web ešte viac oklamať, napríklad naznačiť, že na web vstupujeme z Googlu, tu nechávam posledný riadok so všetkým:

wget --header = "Prijať: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Nie je povinné, aby web na začiatku obsahoval http: // www, môže to byť jeden priamo http: // ako napríklad tento geometria Dash

Je v poriadku to robiť?

To záleží ... vždy to musíte vidieť z oboch uhlov pohľadu, od správcu stránky, ale aj od čitateľa.

Na jednej strane by sa mi ako administrátorovi nepáčilo, že berú HTML kópiu mojej stránky len tak, je to tu online nie pre potešenie, pre potešenie všetkých ... naším cieľom je mať k dispozícii zaujímavý obsah, ktorý sa môžeš naučiť.

Ale na druhej strane ... sú používatelia, ktorí doma nemajú internet, ktorí by chceli mať celú sekciu Tutoriály, ktorú sme sem umiestnili ... Ja som sa dal na ich miesto (v skutočnosti som, pretože doma nemám internet) a nie je nič príjemné byť na počítači, mať problém alebo chcieť niečo robiť a nebyť schopný, pretože nemáte prístup k sieti sietí.

Či je to správne alebo nesprávne, je na každom správcovi, realite každého človeka ... to, čo by ma najviac znepokojovalo, by bola spotreba zdrojov, ktorú wget spôsobuje na serveri, ale s dobrým systémom vyrovnávacej pamäte by to malo stačiť na server netrpí.

Závery

Žiadam vás, aby ste teraz nezačali sťahovať. DesdeLinux HA HA HA!! Napríklad moja priateľka ma požiadala, aby som si stiahol nejaké Cheaty Geometry Dash (niečo ako Cheaty Geometry Dash), nebudem sťahovať celú webovú stránku, ale len otvorím požadovanú stránku a uložím ju do PDF alebo HTML alebo tak nejako, že Toto je čo by som ti odporučil.

Ak máte nejaký návod DesdeLinux ktoré chcete uložiť, uložte si to do záložiek, ako HTML alebo PDF... ale na jeden alebo dva tutoriály nie je potrebné generovať nadmernú návštevnosť a spotrebu na serveri 😉

No nič, dúfam, že je to užitočné ... Zdravím vás

Zanechajte svoj komentár Zrušiť odpoveď

eliotime3000 dijo
hace 10 rokov

Zaujímavý tip. Nevedel som, že to dokážeš.

Odpovedať na eliotime3000
Emmanuel dijo
hace 10 rokov

Je to výslovne to, čo sa mi stalo dvakrát, a bolo to určite kvôli tomu. Aj napriek tomu som chcel z dôvodu rýchlosti (domáci vs. univerzitný) získať prístup k obsahu týmto spôsobom. 😛
Ďakujem za radu. S pozdravom.

Odpovedať Emmanuelovi
Gerardo dijo
hace 10 rokov

Skvelé pre tých z nás, ktorí nemajú internet. Určite dobré návody.

Odpoveď Gerardovi
Quinotto dijo
hace 10 rokov

Veľmi zaujímavý článok.
Otázka: Ako je to možné pre stránky https?
Kde sa vyžaduje autentifikácia pomocou používateľského mena a hesla a tiež veľká časť stránok je napísaná v jazyku Java?
Zdravím a ďakujem

Odpovedať Quinotto
Gél draselný dijo
hace 10 rokov

a kde sú uložené stiahnuté súbory?

Odpovedzte na Gelibasio
1. Gél draselný dijo
  hace 10 rokov
  
  Odpovedám si: v osobnom priečinku. Teraz však otázka znie ... viete mu nejako povedať, kde si má stiahnuť obsah?
  
  Vďaka
  
  Odpovedzte na Gelibasio
  1. daniel dijo
    hace 10 rokov
    
    Myslím, že najskôr vstúpite do priečinka, kam ho chcete uložiť, a potom spustíte wget
    
    Odpovedať Danielovi
Cristian dijo
hace 10 rokov

dopyt ... a bude niečo také na „klonovanie“ databázy

Odpovedať cristianovi
xphnx dijo
hace 10 rokov

Mám zvedavosť, dostávate peniaze za umiestnenie týchto odkazov na weby mikro výklenkov?

Odpovedať na xphnx
Rupert dijo
hace 10 rokov

Požehnaná čarodejnica ... tak som si stiahla veľa porna v mojich prasacích časoch xD

Odpovedať Rupertovi
mesačný dijo
hace 10 rokov

dobrý tip. Vďaka

Odpovedať alunado
NULOVÝ dijo
hace 10 rokov

Veľmi dobre, páčila sa mi časť o obchádzaní obmedzení.

Odpovedať na NULL
Franz dijo
hace 10 rokov

Ďakujem za tento klenot:
wget –header = »Prijať: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboty = vypnuté

wget –header = »Prijať: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboty = vypnuté

wget –header = »Prijať: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboty = vypnuté

Odpoveď Franzovi
Holubníky dijo
hace 10 rokov

Veľmi zaujímavé.

Odpovedať Palomaresovi
oscar mez dijo
hace 10 rokov

wget je jedným z tých ultra výkonných nástrojov. Vďaka malému programovaniu terminálu môžete vytvoriť svojho vlastného robota v štýle google, ktorý začne sťahovať obsah stránok a ukladať ich do vlastnej databázy. S týmito údajmi môžete robiť, čo chcete.

Odpovedať Oscarovi Mezovi
Carlos G. dijo
hace 9 rokov

Považujem tento nástroj za veľmi zaujímavý, nikdy som nevenoval pozornosť jeho parametrom, zaujímalo by ma, či je možné stiahnuť obsah zo stránky «X», na ktorú je potrebné sa prihlásiť, aby ste mohli vstúpiť, a či sa niekde nachádza na tomto webe «X» je nejaké video, stiahol by som si ho aj keď patrí do iného CDN ako je stránka «X»?

Ak by to bolo možné, ako chráni web pred takýmto nástrojom?

Zdravím!

Odpovedať Carlosovi G
Erick zanardi dijo
hace 9 rokov

Dobrú noc:

Píšem vám o konzultáciu. Stiahol som posledným príkazom tohto článku, takmer 300 MB informácií .. súbory .swf, .js, .html, zo stránky http://www.netacad.com/es s mojím používateľom z malého kurzu, ktorý som absolvoval vo Venezuele v Maracay.

Moja otázka je ... Bude možné vidieť flash animácie?

Zadám „Globálna konfigurácia“ a možnosti, ktoré nezobrazuje, mi umožňujú konfiguráciu.

Vážim si každú reakciu.

Vďaka vopred!

Odpovedať Erickovi Zanardimu
1. ADX dijo
  hace 9 rokov
  
  Mám rovnaký detail, súbory .swf sú stiahnuté na polovicu, ak to stihnete preskočiť, zdieľajte mi informácie. To, čo som urobil naposledy, bolo použiť pavúka na získanie všetkých odkazov na netacad, ale súbor .swf stále nedokončí sťahovanie tak, ako by mal
  
  Odpovedať ADX
alexander.hernandez dijo
hace 8 rokov

veľmi dobre !!! Vďaka.

Odpovedať alejandro.hernandez
ana dijo
hace 8 rokov

Ahoj, ďakujem za tvoju tu. Pokúšam sa stiahnuť blog, do ktorého som pozvaný, s heslom, aby som si ho mohol prečítať z domu bez pripojenia. Používam tento program a samozrejme mám heslo blogu (wordpress), ale neviem, ako postupovať. Môžeš mi to ukázať?
Ďakujem vopred a s pozdravom!

Odpovedať Ana
fran dijo
hace 7 rokov

aký skvelý príspevok !!!

Odpovedať Fran
Santiago dijo
hace 7 rokov

vynikajúce poslúžilo mi veľa

Odpoveď Santiagovi
fran dijo
hace 7 rokov

Som prihlásený na webovú stránku s vloženými videami vimeo a neexistuje spôsob, ako by sa dali stiahnuť. Zdá sa, akoby ich mal vimeo chránené. Nejaké nápady??

Odpovedať Fran