Què és wget?
Res millor que Wikipedia per explicar en què consisteix aquesta eina:
GNU WGET és una eina de programari lliure que permet la descàrrega de continguts des de servidors web d'una forma simple. El seu nom deriva de World Wide Web (w), i de «obtenir» (en anglès get), això vol dir: obtenir des de la WWW.
Actualment suporta descàrregues mitjançant els protocols HTTP, HTTPS i FTP.
Entre les característiques més destacades que ofereix wget hi ha la possibilitat de fàcil descàrrega de mirrors (miralls) complexos de forma recursiva, conversió d'enllaços per a la visualització de continguts HTML localment, suport per proxies ...
De wget hemos hablado ya bastante aquí en DesdeLinux. de fet ya havíem vist com descarregar un lloc web complet amb wget, el problema és que avui en dia els administradors no permeten sempre que qualsevol descarregui tot el seu lloc web així sense més, no és una cosa que agradi en realitat ... i, òbviament ho entenc. El lloc hi és a internet per consultar-ho, el lector accedeix al contingut del seu interès i l'administrador de el lloc es veu beneficiat bé econòmicament (per publicitat), com en visites, etc. Si el lector descarrega el lloc cap al seu ordinador, no tindrà la necessitat d'accedir a l'online per consultar algun post passat.
Per descarregar un lloc amb wget és tan simple com:
wget -r -k http://www.sitio.com
- -r : Això indica que es descarregarà el lloc web complet.
- -k : Això indica que es convertiran els links de el lloc descarregat per poder veure'ls en ordinadors sense internet.
Ara, l'assumpte es complica quan l'administrador de el lloc ens la posa difícil ...
¿Quines restriccions hi pugui haver?
La més comú que podríem trobar-nos és que només es permet l'accés a el lloc si tens un UserAgent reconegut. O sigui, el lloc reconeixerà que el UserAgent que tantes pàgines la descàrrega no és dels «normals» i per tant tancarà l'accés.
També mitjançant el fitxer robots.txt es pot especificar que wget (a l'igual que un munt més d'aplicacions similars) No podrà descarregar segons desitgi el client, ja que ... bé, l'administrador de el lloc així ho vol i punt 😀
¿Com burlar aquestes restriccions?
Per al primer cas li establirem un UserAgent a wget, això podrem fer-ho amb l'opció -user-agent, Aquí els mostro com:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.sitio.com -k
Ara, per burlar el robots.txt n'hi ha prou amb fer un exclude a aquest arxiu, és a dir, que wget descarregui el lloc i li importi gens el que digui robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.sitio.com -k -i robots = off
Ara ... hi ha altres opcions o paràmetres que podem fer servir per a enganyar encara més a el lloc, per exemple, indicar-li que entrem a el lloc des de Google, aquí els deixo ia la línia final amb tot:
wget --header = "Accept: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.sitio.com -i robots = off -k
¿Està bé fer això?
Això depèn ... sempre cal veure-ho des dels dos punts de vista, des del de l'administrador de la web però també des del lector.
D'una banda a mi com a administrador no m'agradaria que s'estiguin portant una còpia en HTML del meu lloc així sense més, aquí online no per gust, per al gaudi de tots ... la nostra meta és tenir-los disponible contingut interessant, que puguin aprendre.
Però, d'altra banda ... hi ha usuaris que no tenen internet a casa, que els agradaria comptar amb tota la secció de Tutorials que hem posat aquí ... em poso en el lloc d'ells (de fet ho estic, doncs a casa no tinc internet) I no és agradable estar a l'ordinador, tenir un problema o voler fer alguna cosa i no poder ja que no es té accés a la xarxa de xarxes.
Si està bé o malament és cosa de cada administrador, de la realitat de cada un ... el que més em preocuparia a mi seria el consum de recursos que l'wget provoqui al servidor, però amb un bon sistema de memòria cau hauria de ser suficient perquè el server no pateixi.
Conclusions
Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.
Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉
Bé res, espero els sigui útil ... Salutacions
Interessant tip. No sabia que es podia fer això.
Expressament és el que m'havia passat dues vegades, i era certament per això. Encara que, era per qüestions de velocitat (casa vs universitat) que vaig voler accedir al contingut d'aquesta forma. 😛
Gràcies pel consell. Salutacions.
Genial per als quals no tenim internet. Per cert bons tutorials.
Molt interessant l'article.
Pregunta: com es pot fer per a llocs https?
On es requereix autenticar per mitjà d'usuari i contrasenya i a més gran part de el lloc esta escrit en java?
Salutacions i Gràcies
i on es guarden les descàrregues?
Em responc jo mateix: a la carpeta personal. Però ara la pregunta és ... se li pot indicar d'alguna manera on descarregar el contingut?
gràcies
Suposo que primer accedeixes a la carpeta on vols guardar-lo i després corres wget
consulta ... i hi haurà alguna cosa com això per «clonar» una base de dades
Tinc una curiositat, rebeu diners per col·locar aquests enllaços a webs Micronichos?
Beneït wget ... així vaig descarregar molta porno en els meus temps de porc xD
bon tip. gràcies
Molt bo, em va agradar la part de burlar les restriccions.
Gràcies per aquesta joia:
wget -header = »Accept: text / html» -user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31" -referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -i robots = off
wget -header = »Accept: text / html» -user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31" -referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -i robots = off
wget -header = »Accept: text / html» -user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31" -referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -i robots = off
Molt interessant.
wget és una d'aquestes eines ultrapoderosas, amb una mica de programació de terminal pots fer el teu propi robot a l'estil google per començar a baixar el contingut de les pàgines i emmagatzemar-lo en la teva pròpia base de dades i fer el qu vulguis després amb aquesta data.
Em sembla molt interessant aquesta eina, mai havia posat atenció als seus paràmetres, m'agradaria saber si es pot descarregar contingut d'una pàgina «X» a la qual es necessita estar loggejat per entrar, i si és que en algun lloc d'aquest lloc « X »ha algun vídeo, també ho descarregaria encara que pertanyi a un CDN diferent a el lloc« X »?
Si això fos possible com es protegeix contra un lloc contra una eina així?
Salutacions!
Bona nit:
Els escric per a una consulta. Vaig descarregar amb l'últim comando d'aquest article, gairebé 300MB d'informació .. arxius .swf, .js, .html, des de la pàgina http://www.netacad.com/es amb el meu usuari d'un petit curs que vaig realitzar a Maracay, Veneçuela.
La meva pregunta és ... Hi haurà possibilitat de veure les animacions flash?
Ingrés a «Configuració Global» i les opcions que mostra cap em permet configurar.
Agraeixo alguna resposta.
Gràcies per endavant!
tinc el mateix detall, els .swf es descarreguen a mitges, si aconsegueixes saltar-me comparteixes info. El que vaig fer d'ultimo intent va ser usar un spider per obtenir tots els enllaços de l'NetAcad però així i tot els .swf no acaben de descarregar-com hauria
molt bo !!! gràcies.
Hola, gràcies per la teva Estatut. Intento descarregar-me un bloc en el que estic convidada, amb contrasenya, per poder-lo llegir des de casa sense connexió. Ús aquest programa, i òbviament, tinc la contrasenya de l'bloc (wordpress), però no sé com procedir. Podries indicar-me?
Gràcies amb antelació i una salutació!
que gran post !!!
excel·lent m'ha servit bastant
Estic loguejat en un web amb videos de vimeo incrustrados i no hi ha manera que es descarreguin .. sembla com si vimeo els tingués protegits. Alguna idea ??