Descărcați site-ul complet cu wget chiar dacă există restricții

Descărcați un întreg site cu wget chiar dacă există restricții

Ce este wget?

Nimic mai bun decât Wikipedia pentru a explica în ce constă acest instrument:

GNU Wget este un instrument software gratuit care permite descărcarea conținutului de pe serverele web într-un mod simplu. Numele său provine de la World Wide Web (w) și de la „get” (în engleză get), aceasta înseamnă: obține de la WWW.

În prezent, acceptă descărcări utilizând protocoalele HTTP, HTTPS și FTP.

Printre cele mai remarcabile caracteristici pe care le oferă wget există posibilitatea descărcării ușoare a oglinzilor complexe recursiv, conversia linkurilor pentru a afișa conținut HTML local, suport pentru proxy ...

De wget Am vorbit deja destul aici la DesdeLinux. De fapt ya Văzusem cum să descărcăm un site web complet cu wget, problema este că în zilele noastre administratorii nu permit întotdeauna nimănui să descarce întregul site web așa, nu este ceva care să-i placă cu adevărat ... și, evident, înțeleg. Site-ul este acolo pe internet pentru consultare, cititorul accesează conținut de interes și administratorul site-ului beneficiază bine din punct de vedere financiar (prin publicitate), cum ar fi vizitele etc. Dacă cititorul descarcă site-ul pe computerul său, nu va trebui să meargă online pentru a consulta o postare anterioară.

Pentru a descărca un site cu wget este la fel de simplu ca:

wget -r -k http://www.sitio.com

-r : Aceasta indică faptul că întregul site web va fi descărcat.
-k : Aceasta indică faptul că linkurile site-ului descărcat vor fi convertite pentru a fi văzute pe computere fără internet.

Acum, lucrurile se complică atunci când administratorul site-ului ne îngreunează ...

Ce restricții ar putea exista?

Cel mai frecvent pe care l-am putea găsi este că accesul la site este permis numai dacă aveți un UserAgent recunoscut. Cu alte cuvinte, site-ul va recunoaște că UserAgent care descarcă atâtea pagini nu este una dintre cele „normale” și, prin urmare, va închide accesul.

De asemenea, prin fișierul robots.txt puteți specifica acel wget (ca o grămadă de aplicații similare) Nu veți putea descărca după cum dorește clientul, ei bine ... ei bine, administratorul site-ului o dorește, punct 😀

Cum să ocolim aceste restricții?

Pentru primul caz, vom stabili un UserAgent pentru a wget, putem face acest lucru cu opțiunea -Agent utilizator, aici vă arăt cum:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Acum, pentru a evita robotii.txt, trebuie doar să excludeți fișierul respectiv, adică să lăsați wget să descarce site-ul și să nu vă intereseze ce spune robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Acum ... există alte opțiuni sau parametri pe care îi putem folosi pentru a înșela și mai mult site-ul, de exemplu, indică faptul că intrăm pe site de la Google, aici las ultima linie cu tot:

wget --header = "Accept: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Nu este obligatoriu ca site-ul să conțină http: // www la început, acesta poate fi unul direct http: // ca de exemplu acesta geometrie Dash

Este ok să faci asta?

Asta depinde ... trebuie să o vedeți întotdeauna din ambele puncte de vedere, de la administratorul site-ului, dar și de la cititor.

Pe de o parte, în calitate de administrator, nu aș vrea să preia o copie HTML a site-ului meu așa, este aici online, nu pentru plăcere, pentru plăcerea tuturor ... obiectivul nostru este să avem conținut interesant disponibil, pe care îl puteți învăța.

Dar, pe de altă parte ... există utilizatori care nu au internet acasă, care ar dori să aibă întreaga secțiune Tutoriale pe care am pus-o aici ... M-am pus în locul lor (de fapt sunt, pentru că acasă nu am internet) și nu este plăcut să fii pe computer, să ai o problemă sau să vrei să faci ceva și nu poți pentru că nu ai acces la rețeaua de rețele.

Indiferent dacă este corect sau greșit, depinde de fiecare administrator, de realitatea fiecăruia ... ceea ce m-ar preocupa cel mai mult ar fi consumul de resurse pe care wget îl provoacă pe server, dar cu un sistem cache bun ar trebui să fie serverul nu suferă.

Concluzii

Vă rog să nu începeți descărcarea acum. DesdeLinux HA HA HA!! De exemplu, prietena mea mi-a cerut să descarc niște Cheats Geometry Dash (ceva de genul Geometry Dash Cheats), nu voi descărca întregul site, ci doar voi deschide pagina dorită și o voi salva în PDF sau HTML sau ceva de genul acesta ce ti-as recomanda.

Daca ai vreun tutorial DesdeLinux pe care vrei să-l salvezi, salvează-l în marcaje, ca HTML sau PDF... dar, pentru unul sau două tutoriale nu este necesar să generezi trafic și consum excesiv pe server 😉

Păi nimic, sper să fie util ... Salutări

Lasă comentariul tău Anulați răspunsul

eliotime3000 el a spus
hace Ani 10

Sfat interesant. Nu știam că poți face asta.

Răspunde la eliotime3000
Emmanuel el a spus
hace Ani 10

Este în mod expres ceea ce mi se întâmplase de două ori și cu siguranță a fost din cauza asta. Deși, din motive de viteză (acasă vs universitate) am vrut să accesez conținutul în acest fel. 😛
Multumesc pentru sfat. Salutari.

Răspunde-i lui Emmanuel
Gerardo el a spus
hace Ani 10

Minunat pentru cei dintre noi care nu au internet. Cu siguranță tutoriale bune.

Răspunde lui Gerardo
Quinotto el a spus
hace Ani 10

Articol foarte interesant.
Întrebare: cum se poate face pentru site-urile https?
Unde este necesară autentificarea prin nume de utilizator și parolă și, de asemenea, o mare parte a site-ului este scrisă în java?
Salutări și mulțumiri

Răspunde la Quinotto
Gelibasiu el a spus
hace Ani 10

și unde sunt salvate descărcările?

Răspunde la Gelibasio
1. Gelibasiu el a spus
  hace Ani 10
  
  Îmi răspund: în dosarul personal. Dar acum întrebarea este ... puteți indica cumva de unde să descărcați conținutul?
  
  graciass
  
  Răspunde la Gelibasio
  1. Daniel el a spus
    hace Ani 10
    
    Cred că mai întâi accesați folderul în care doriți să îl salvați și apoi rulați wget
    
    Răspunde lui Daniel
cristian el a spus
hace Ani 10

interogare ... și va exista ceva de genul acesta pentru a „clona” o bază de date

Răspunde lui cristian
xphnx el a spus
hace Ani 10

Am o curiozitate, primiți bani pentru plasarea acelor link-uri către rețelele de micro-nișe?

Răspunde la xphnx
Rupert el a spus
hace Ani 10

Fericit wget ... așa am descărcat o mulțime de porno în zilele mele de porc xD

Răspunde lui Ruperto
lunar el a spus
hace Ani 10

bun sfat. Mulțumiri

Răspunde la alunado
NULL el a spus
hace Ani 10

Foarte bine, mi-a plăcut partea despre eludarea restricțiilor.

Răspunde la NULL
Franz el a spus
hace Ani 10

Vă mulțumim pentru acea bijuterie:
wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off

wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = off

wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off

Răspunde lui Franz
Pădurari el a spus
hace Ani 10

Foarte interesant.

Răspunde la Palomares
oscar meza el a spus
hace Ani 10

wget este unul dintre acele instrumente ultra-puternice, cu o mică programare a terminalului, puteți să vă creați propriul robot în stil google pentru a începe să descărcați conținutul paginilor și să-l stocați în propria bază de date și să faceți orice doriți mai târziu cu acele date.

Răspunde lui Oscar Meza
Carlos G. el a spus
hace Ani 9

Mi se pare foarte interesant acest instrument, nu am acordat niciodată atenție parametrilor săi, aș dori să știu dacă puteți descărca conținut de pe o pagină «X» pe care trebuie să vă conectați pentru a intra și dacă este undeva pe acest site «X» există vreun videoclip, l-aș descărca și eu chiar dacă aparține unui alt CDN decât site-ul «X»?

Dacă acest lucru ar fi posibil, cum se protejează un site împotriva unui astfel de instrument?

Salutări!

Răspunde lui Carlos G
Erick zanardi el a spus
hace Ani 9

Noapte bună:

Vă scriu pentru o consultație. Am descărcat cu ultima comandă a acestui articol, aproape 300 MB de informații .. fișiere .swf, .js, .html, de pe pagină http://www.netacad.com/es cu utilizatorul meu dintr-un mic curs pe care l-am făcut în Maracay, Venezuela.

Întrebarea mea este ... Va fi posibil să vedeți animațiile flash?

Introduc „Configurare globală” și opțiunile pe care nu le afișează niciuna îmi permit să le configurez.

Apreciez orice răspuns.

Multumesc anticipat!

Răspunde lui Erick Zanardi
1. ADX el a spus
  hace Ani 9
  
  Am același detaliu, .swf sunt descărcate pe jumătate, dacă reușești să-l omite, împărtășește-mi informații. Ce am încercat ultima oară a fost să folosesc un păianjen pentru a obține toate linkurile netacad, dar totuși .swf nu termină descărcarea așa cum ar trebui
  
  Răspundeți la ADX
alexander.hernandez el a spus
hace Ani 8

foarte bine !!! Mulțumiri.

Răspunde la alejandro.hernandez
Ana el a spus
hace Ani 8

Bună ziua, mulțumesc pentru tuto. Încerc să descarc un blog în care sunt invitat, cu o parolă, pentru a-l putea citi de acasă fără conexiune. Folosesc acest program și, evident, am parola blogului (wordpress), dar nu știu cum să procedez. Ai putea sa imi arati?
Mulțumesc anticipat și salutări!

Răspunde Ana
Fran el a spus
hace Ani 7

ce post grozav !!!

Răspunde-i lui Fran
Santiago el a spus
hace Ani 7

excelent mi-a servit foarte mult

Răspunde lui Santiago
Fran el a spus
hace Ani 7

Sunt conectat la un site web cu videoclipuri vimeo încorporate și nu există nicio modalitate de a le descărca .. se pare că vimeo le-a protejat. Vreo idee??

Răspunde-i lui Fran