Ce este wget?
Nimic mai bun decât Wikipedia pentru a explica în ce constă acest instrument:
GNU Wget este un instrument software gratuit care permite descărcarea conținutului de pe serverele web într-un mod simplu. Numele său provine de la World Wide Web (w) și de la „get” (în engleză get), aceasta înseamnă: obține de la WWW.
În prezent, acceptă descărcări utilizând protocoalele HTTP, HTTPS și FTP.
Printre cele mai remarcabile caracteristici pe care le oferă wget există posibilitatea descărcării ușoare a oglinzilor complexe recursiv, conversia linkurilor pentru a afișa conținut HTML local, suport pentru proxy ...
De wget Am vorbit deja destul aici la DesdeLinux. De fapt ya Văzusem cum să descărcăm un site web complet cu wget, problema este că în zilele noastre administratorii nu permit întotdeauna nimănui să descarce întregul site web așa, nu este ceva care să-i placă cu adevărat ... și, evident, înțeleg. Site-ul este acolo pe internet pentru consultare, cititorul accesează conținut de interes și administratorul site-ului beneficiază bine din punct de vedere financiar (prin publicitate), cum ar fi vizitele etc. Dacă cititorul descarcă site-ul pe computerul său, nu va trebui să meargă online pentru a consulta o postare anterioară.
Pentru a descărca un site cu wget este la fel de simplu ca:
wget -r -k http://www.sitio.com
- -r : Aceasta indică faptul că întregul site web va fi descărcat.
- -k : Aceasta indică faptul că linkurile site-ului descărcat vor fi convertite pentru a fi văzute pe computere fără internet.
Acum, lucrurile se complică atunci când administratorul site-ului ne îngreunează ...
Ce restricții ar putea exista?
Cel mai frecvent pe care l-am putea găsi este că accesul la site este permis numai dacă aveți un UserAgent recunoscut. Cu alte cuvinte, site-ul va recunoaște că UserAgent care descarcă atâtea pagini nu este una dintre cele „normale” și, prin urmare, va închide accesul.
De asemenea, prin fișierul robots.txt puteți specifica acel wget (ca o grămadă de aplicații similare) Nu veți putea descărca după cum dorește clientul, ei bine ... ei bine, administratorul site-ului o dorește, punct 😀
Cum să ocolim aceste restricții?
Pentru primul caz, vom stabili un UserAgent pentru a wget, putem face acest lucru cu opțiunea -Agent utilizator, aici vă arăt cum:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Acum, pentru a evita robotii.txt, trebuie doar să excludeți fișierul respectiv, adică să lăsați wget să descarce site-ul și să nu vă intereseze ce spune robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off
Acum ... există alte opțiuni sau parametri pe care îi putem folosi pentru a înșela și mai mult site-ul, de exemplu, indică faptul că intrăm pe site de la Google, aici las ultima linie cu tot:
wget --header = "Accept: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k
Este ok să faci asta?
Asta depinde ... trebuie să o vedeți întotdeauna din ambele puncte de vedere, de la administratorul site-ului, dar și de la cititor.
Pe de o parte, în calitate de administrator, nu aș vrea să preia o copie HTML a site-ului meu așa, este aici online, nu pentru plăcere, pentru plăcerea tuturor ... obiectivul nostru este să avem conținut interesant disponibil, pe care îl puteți învăța.
Dar, pe de altă parte ... există utilizatori care nu au internet acasă, care ar dori să aibă întreaga secțiune Tutoriale pe care am pus-o aici ... M-am pus în locul lor (de fapt sunt, pentru că acasă nu am internet) și nu este plăcut să fii pe computer, să ai o problemă sau să vrei să faci ceva și nu poți pentru că nu ai acces la rețeaua de rețele.
Indiferent dacă este corect sau greșit, depinde de fiecare administrator, de realitatea fiecăruia ... ceea ce m-ar preocupa cel mai mult ar fi consumul de resurse pe care wget îl provoacă pe server, dar cu un sistem cache bun ar trebui să fie serverul nu suferă.
Concluzii
Vă rog să nu începeți descărcarea acum. DesdeLinux HA HA HA!! De exemplu, prietena mea mi-a cerut să descarc niște Cheats Geometry Dash (ceva de genul Geometry Dash Cheats), nu voi descărca întregul site, ci doar voi deschide pagina dorită și o voi salva în PDF sau HTML sau ceva de genul acesta ce ti-as recomanda.
Daca ai vreun tutorial DesdeLinux pe care vrei să-l salvezi, salvează-l în marcaje, ca HTML sau PDF... dar, pentru unul sau două tutoriale nu este necesar să generezi trafic și consum excesiv pe server 😉
Păi nimic, sper să fie util ... Salutări
Sfat interesant. Nu știam că poți face asta.
Este în mod expres ceea ce mi se întâmplase de două ori și cu siguranță a fost din cauza asta. Deși, din motive de viteză (acasă vs universitate) am vrut să accesez conținutul în acest fel. 😛
Multumesc pentru sfat. Salutari.
Minunat pentru cei dintre noi care nu au internet. Cu siguranță tutoriale bune.
Articol foarte interesant.
Întrebare: cum se poate face pentru site-urile https?
Unde este necesară autentificarea prin nume de utilizator și parolă și, de asemenea, o mare parte a site-ului este scrisă în java?
Salutări și mulțumiri
și unde sunt salvate descărcările?
Îmi răspund: în dosarul personal. Dar acum întrebarea este ... puteți indica cumva de unde să descărcați conținutul?
graciass
Cred că mai întâi accesați folderul în care doriți să îl salvați și apoi rulați wget
interogare ... și va exista ceva de genul acesta pentru a „clona” o bază de date
Am o curiozitate, primiți bani pentru plasarea acelor link-uri către rețelele de micro-nișe?
Fericit wget ... așa am descărcat o mulțime de porno în zilele mele de porc xD
bun sfat. Mulțumiri
Foarte bine, mi-a plăcut partea despre eludarea restricțiilor.
Vă mulțumim pentru acea bijuterie:
wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off
wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = off
wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off
Foarte interesant.
wget este unul dintre acele instrumente ultra-puternice, cu o mică programare a terminalului, puteți să vă creați propriul robot în stil google pentru a începe să descărcați conținutul paginilor și să-l stocați în propria bază de date și să faceți orice doriți mai târziu cu acele date.
Mi se pare foarte interesant acest instrument, nu am acordat niciodată atenție parametrilor săi, aș dori să știu dacă puteți descărca conținut de pe o pagină «X» pe care trebuie să vă conectați pentru a intra și dacă este undeva pe acest site «X» există vreun videoclip, l-aș descărca și eu chiar dacă aparține unui alt CDN decât site-ul «X»?
Dacă acest lucru ar fi posibil, cum se protejează un site împotriva unui astfel de instrument?
Salutări!
Noapte bună:
Vă scriu pentru o consultație. Am descărcat cu ultima comandă a acestui articol, aproape 300 MB de informații .. fișiere .swf, .js, .html, de pe pagină http://www.netacad.com/es cu utilizatorul meu dintr-un mic curs pe care l-am făcut în Maracay, Venezuela.
Întrebarea mea este ... Va fi posibil să vedeți animațiile flash?
Introduc „Configurare globală” și opțiunile pe care nu le afișează niciuna îmi permit să le configurez.
Apreciez orice răspuns.
Multumesc anticipat!
Am același detaliu, .swf sunt descărcate pe jumătate, dacă reușești să-l omite, împărtășește-mi informații. Ce am încercat ultima oară a fost să folosesc un păianjen pentru a obține toate linkurile netacad, dar totuși .swf nu termină descărcarea așa cum ar trebui
foarte bine !!! Mulțumiri.
Bună ziua, mulțumesc pentru tuto. Încerc să descarc un blog în care sunt invitat, cu o parolă, pentru a-l putea citi de acasă fără conexiune. Folosesc acest program și, evident, am parola blogului (wordpress), dar nu știu cum să procedez. Ai putea sa imi arati?
Mulțumesc anticipat și salutări!
ce post grozav !!!
excelent mi-a servit foarte mult
Sunt conectat la un site web cu videoclipuri vimeo încorporate și nu există nicio modalitate de a le descărca .. se pare că vimeo le-a protejat. Vreo idee??