Descărcați un întreg site cu wget chiar dacă există restricții

Ce este wget?

Nimic mai bun decât Wikipedia pentru a explica în ce constă acest instrument:

GNU Wget este un instrument software gratuit care permite descărcarea conținutului de pe serverele web într-un mod simplu. Numele său provine de la World Wide Web (w) și de la „get” (în engleză get), aceasta înseamnă: obține de la WWW.

În prezent, acceptă descărcări utilizând protocoalele HTTP, HTTPS și FTP.

Printre cele mai remarcabile caracteristici pe care le oferă wget există posibilitatea descărcării ușoare a oglinzilor complexe recursiv, conversia linkurilor pentru a afișa conținut HTML local, suport pentru proxy ...

De wget Am vorbit deja destul aici la DesdeLinux. De fapt ya Văzusem cum să descărcăm un site web complet cu wget, problema este că în zilele noastre administratorii nu permit întotdeauna nimănui să descarce întregul site web așa, nu este ceva care să-i placă cu adevărat ... și, evident, înțeleg. Site-ul este acolo pe internet pentru consultare, cititorul accesează conținut de interes și administratorul site-ului beneficiază bine din punct de vedere financiar (prin publicitate), cum ar fi vizitele etc. Dacă cititorul descarcă site-ul pe computerul său, nu va trebui să meargă online pentru a consulta o postare anterioară.

Pentru a descărca un site cu wget este la fel de simplu ca:

wget -r -k http://www.sitio.com

  • -r : Aceasta indică faptul că întregul site web va fi descărcat.
  • -k : Aceasta indică faptul că linkurile site-ului descărcat vor fi convertite pentru a fi văzute pe computere fără internet.

Acum, lucrurile se complică atunci când administratorul site-ului ne îngreunează ...

Ce restricții ar putea exista?

Cel mai frecvent pe care l-am putea găsi este că accesul la site este permis numai dacă aveți un UserAgent recunoscut. Cu alte cuvinte, site-ul va recunoaște că UserAgent care descarcă atâtea pagini nu este una dintre cele „normale” și, prin urmare, va închide accesul.

De asemenea, prin fișierul robots.txt puteți specifica acel wget (ca o grămadă de aplicații similare) Nu veți putea descărca după cum dorește clientul, ei bine ... ei bine, administratorul site-ului o dorește, punct 😀

Cum să ocolim aceste restricții?

Pentru primul caz, vom stabili un UserAgent pentru a wget, putem face acest lucru cu opțiunea -Agent utilizator, aici vă arăt cum:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Acum, pentru a evita robotii.txt, trebuie doar să excludeți fișierul respectiv, adică să lăsați wget să descarce site-ul și să nu vă intereseze ce spune robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Acum ... există alte opțiuni sau parametri pe care îi putem folosi pentru a înșela și mai mult site-ul, de exemplu, indică faptul că intrăm pe site de la Google, aici las ultima linie cu tot:

wget --header = "Accept: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Nu este obligatoriu ca site-ul să conțină http: // www la început, acesta poate fi unul direct http: // ca de exemplu acesta geometrie Dash

Este ok să faci asta?

Asta depinde ... trebuie să o vedeți întotdeauna din ambele puncte de vedere, de la administratorul site-ului, dar și de la cititor.

Pe de o parte, în calitate de administrator, nu aș vrea să preia o copie HTML a site-ului meu așa, este aici online, nu pentru plăcere, pentru plăcerea tuturor ... obiectivul nostru este să avem conținut interesant disponibil, pe care îl puteți învăța.

Dar, pe de altă parte ... există utilizatori care nu au internet acasă, care ar dori să aibă întreaga secțiune Tutoriale pe care am pus-o aici ... M-am pus în locul lor (de fapt sunt, pentru că acasă nu am internet) și nu este plăcut să fii pe computer, să ai o problemă sau să vrei să faci ceva și nu poți pentru că nu ai acces la rețeaua de rețele.

Indiferent dacă este corect sau greșit, depinde de fiecare administrator, de realitatea fiecăruia ... ceea ce m-ar preocupa cel mai mult ar fi consumul de resurse pe care wget îl provoacă pe server, dar cu un sistem cache bun ar trebui să fie serverul nu suferă.

Internet

Concluzii

Vă rog să nu începeți descărcarea acum. DesdeLinux HA HA HA!! De exemplu, prietena mea mi-a cerut să descarc niște Cheats Geometry Dash (ceva de genul Geometry Dash Cheats), nu voi descărca întregul site, ci doar voi deschide pagina dorită și o voi salva în PDF sau HTML sau ceva de genul acesta ce ti-as recomanda.

Daca ai vreun tutorial DesdeLinux pe care vrei să-l salvezi, salvează-l în marcaje, ca HTML sau PDF... dar, pentru unul sau două tutoriale nu este necesar să generezi trafic și consum excesiv pe server 😉

Păi nimic, sper să fie util ... Salutări


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.

  1.   eliotime3000 el a spus

    Sfat interesant. Nu știam că poți face asta.

  2.   Emmanuel el a spus

    Este în mod expres ceea ce mi se întâmplase de două ori și cu siguranță a fost din cauza asta. Deși, din motive de viteză (acasă vs universitate) am vrut să accesez conținutul în acest fel. 😛
    Multumesc pentru sfat. Salutari.

  3.   Gerardo el a spus

    Minunat pentru cei dintre noi care nu au internet. Cu siguranță tutoriale bune.

  4.   Quinotto el a spus

    Articol foarte interesant.
    Întrebare: cum se poate face pentru site-urile https?
    Unde este necesară autentificarea prin nume de utilizator și parolă și, de asemenea, o mare parte a site-ului este scrisă în java?
    Salutări și mulțumiri

  5.   Gelibasiu el a spus

    și unde sunt salvate descărcările?

    1.    Gelibasiu el a spus

      Îmi răspund: în dosarul personal. Dar acum întrebarea este ... puteți indica cumva de unde să descărcați conținutul?

      graciass

      1.    Daniel el a spus

        Cred că mai întâi accesați folderul în care doriți să îl salvați și apoi rulați wget

  6.   cristian el a spus

    interogare ... și va exista ceva de genul acesta pentru a „clona” o bază de date

  7.   xphnx el a spus

    Am o curiozitate, primiți bani pentru plasarea acelor link-uri către rețelele de micro-nișe?

  8.   Rupert el a spus

    Fericit wget ... așa am descărcat o mulțime de porno în zilele mele de porc xD

  9.   lunar el a spus

    bun sfat. Mulțumiri

  10.   NULL el a spus

    Foarte bine, mi-a plăcut partea despre eludarea restricțiilor.

  11.   Franz el a spus

    Vă mulțumim pentru acea bijuterie:
    wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off

    wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = off

    wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off

  12.   Pădurari el a spus

    Foarte interesant.

  13.   oscar meza el a spus

    wget este unul dintre acele instrumente ultra-puternice, cu o mică programare a terminalului, puteți să vă creați propriul robot în stil google pentru a începe să descărcați conținutul paginilor și să-l stocați în propria bază de date și să faceți orice doriți mai târziu cu acele date.

  14.   Carlos G. el a spus

    Mi se pare foarte interesant acest instrument, nu am acordat niciodată atenție parametrilor săi, aș dori să știu dacă puteți descărca conținut de pe o pagină «X» pe care trebuie să vă conectați pentru a intra și dacă este undeva pe acest site «X» există vreun videoclip, l-aș descărca și eu chiar dacă aparține unui alt CDN decât site-ul «X»?

    Dacă acest lucru ar fi posibil, cum se protejează un site împotriva unui astfel de instrument?

    Salutări!

  15.   Erick zanardi el a spus

    Noapte bună:

    Vă scriu pentru o consultație. Am descărcat cu ultima comandă a acestui articol, aproape 300 MB de informații .. fișiere .swf, .js, .html, de pe pagină http://www.netacad.com/es cu utilizatorul meu dintr-un mic curs pe care l-am făcut în Maracay, Venezuela.

    Întrebarea mea este ... Va fi posibil să vedeți animațiile flash?

    Introduc „Configurare globală” și opțiunile pe care nu le afișează niciuna îmi permit să le configurez.

    Apreciez orice răspuns.

    Multumesc anticipat!

    1.    ADX el a spus

      Am același detaliu, .swf sunt descărcate pe jumătate, dacă reușești să-l omite, împărtășește-mi informații. Ce am încercat ultima oară a fost să folosesc un păianjen pentru a obține toate linkurile netacad, dar totuși .swf nu termină descărcarea așa cum ar trebui

  16.   alexander.hernandez el a spus

    foarte bine !!! Mulțumiri.

  17.   Ana el a spus

    Bună ziua, mulțumesc pentru tuto. Încerc să descarc un blog în care sunt invitat, cu o parolă, pentru a-l putea citi de acasă fără conexiune. Folosesc acest program și, evident, am parola blogului (wordpress), dar nu știu cum să procedez. Ai putea sa imi arati?
    Mulțumesc anticipat și salutări!

  18.   Fran el a spus

    ce post grozav !!!

  19.   Santiago el a spus

    excelent mi-a servit foarte mult

  20.   Fran el a spus

    Sunt conectat la un site web cu videoclipuri vimeo încorporate și nu există nicio modalitate de a le descărca .. se pare că vimeo le-a protejat. Vreo idee??