Descarrega un lloc sencer amb wget tot i que hagin restriccions

Què és wget?

Res millor que Wikipedia per explicar en què consisteix aquesta eina:

GNU WGET és una eina de programari lliure que permet la descàrrega de continguts des de servidors web d'una forma simple. El seu nom deriva de World Wide Web (w), i de «obtenir» (en anglès get), això vol dir: obtenir des de la WWW.

Actualment suporta descàrregues mitjançant els protocols HTTP, HTTPS i FTP.

Entre les característiques més destacades que ofereix wget hi ha la possibilitat de fàcil descàrrega de mirrors (miralls) complexos de forma recursiva, conversió d'enllaços per a la visualització de continguts HTML localment, suport per proxies ...

De wget hemos hablado ya bastante aquí en DesdeLinux. de fet ya havíem vist com descarregar un lloc web complet amb wget, el problema és que avui en dia els administradors no permeten sempre que qualsevol descarregui tot el seu lloc web així sense més, no és una cosa que agradi en realitat ... i, òbviament ho entenc. El lloc hi és a internet per consultar-ho, el lector accedeix al contingut del seu interès i l'administrador de el lloc es veu beneficiat bé econòmicament (per publicitat), com en visites, etc. Si el lector descarrega el lloc cap al seu ordinador, no tindrà la necessitat d'accedir a l'online per consultar algun post passat.

Per descarregar un lloc amb wget és tan simple com:

wget -r -k http://www.sitio.com

  • -r : Això indica que es descarregarà el lloc web complet.
  • -k : Això indica que es convertiran els links de el lloc descarregat per poder veure'ls en ordinadors sense internet.

Ara, l'assumpte es complica quan l'administrador de el lloc ens la posa difícil ...

¿Quines restriccions hi pugui haver?

La més comú que podríem trobar-nos és que només es permet l'accés a el lloc si tens un UserAgent reconegut. O sigui, el lloc reconeixerà que el UserAgent que tantes pàgines la descàrrega no és dels «normals» i per tant tancarà l'accés.

També mitjançant el fitxer robots.txt es pot especificar que wget (a l'igual que un munt més d'aplicacions similars) No podrà descarregar segons desitgi el client, ja que ... bé, l'administrador de el lloc així ho vol i punt 😀

¿Com burlar aquestes restriccions?

Per al primer cas li establirem un UserAgent a wget, això podrem fer-ho amb l'opció -user-agent, Aquí els mostro com:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.sitio.com -k

Ara, per burlar el robots.txt n'hi ha prou amb fer un exclude a aquest arxiu, és a dir, que wget descarregui el lloc i li importi gens el que digui robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.sitio.com -k -i robots = off

Ara ... hi ha altres opcions o paràmetres que podem fer servir per a enganyar encara més a el lloc, per exemple, indicar-li que entrem a el lloc des de Google, aquí els deixo ia la línia final amb tot:

wget --header = "Accept: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.sitio.com -i robots = off -k

No és obligatori que el lloc contingui http: // www a l'inici, pot ser un directament http: // com per exemple aquest de Guió de geometria

¿Està bé fer això?

Això depèn ... sempre cal veure-ho des dels dos punts de vista, des del de l'administrador de la web però també des del lector.

D'una banda a mi com a administrador no m'agradaria que s'estiguin portant una còpia en HTML del meu lloc així sense més, aquí online no per gust, per al gaudi de tots ... la nostra meta és tenir-los disponible contingut interessant, que puguin aprendre.

Però, d'altra banda ... hi ha usuaris que no tenen internet a casa, que els agradaria comptar amb tota la secció de Tutorials que hem posat aquí ... em poso en el lloc d'ells (de fet ho estic, doncs a casa no tinc internet) I no és agradable estar a l'ordinador, tenir un problema o voler fer alguna cosa i no poder ja que no es té accés a la xarxa de xarxes.

Si està bé o malament és cosa de cada administrador, de la realitat de cada un ... el que més em preocuparia a mi seria el consum de recursos que l'wget provoqui al servidor, però amb un bon sistema de memòria cau hauria de ser suficient perquè el server no pateixi.

Internet

Conclusions

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

Bé res, espero els sigui útil ... Salutacions


23 comentaris, deixa el teu

Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.

  1.   eliotime3000 va dir

    Interessant tip. No sabia que es podia fer això.

  2.   Emmanuel va dir

    Expressament és el que m'havia passat dues vegades, i era certament per això. Encara que, era per qüestions de velocitat (casa vs universitat) que vaig voler accedir al contingut d'aquesta forma. 😛
    Gràcies pel consell. Salutacions.

  3.   Gerardo va dir

    Genial per als quals no tenim internet. Per cert bons tutorials.

  4.   Quinotto va dir

    Molt interessant l'article.
    Pregunta: com es pot fer per a llocs https?
    On es requereix autenticar per mitjà d'usuari i contrasenya i a més gran part de el lloc esta escrit en java?
    Salutacions i Gràcies

  5.   Gelibasi va dir

    i on es guarden les descàrregues?

    1.    Gelibasi va dir

      Em responc jo mateix: a la carpeta personal. Però ara la pregunta és ... se li pot indicar d'alguna manera on descarregar el contingut?

      gràcies

      1.    Daniel va dir

        Suposo que primer accedeixes a la carpeta on vols guardar-lo i després corres wget

  6.   cristian va dir

    consulta ... i hi haurà alguna cosa com això per «clonar» una base de dades

  7.   xphnx va dir

    Tinc una curiositat, rebeu diners per col·locar aquests enllaços a webs Micronichos?

  8.   Rupert va dir

    Beneït wget ... així vaig descarregar molta porno en els meus temps de porc xD

  9.   alunat va dir

    bon tip. gràcies

  10.   NULL va dir

    Molt bo, em va agradar la part de burlar les restriccions.

  11.   Franz va dir

    Gràcies per aquesta joia:
    wget -header = »Accept: text / html» -user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31" -referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -i robots = off

    wget -header = »Accept: text / html» -user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31" -referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -i robots = off

    wget -header = »Accept: text / html» -user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31" -referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -i robots = off

  12.   Palomares va dir

    Molt interessant.

  13.   Oscar Meza va dir

    wget és una d'aquestes eines ultrapoderosas, amb una mica de programació de terminal pots fer el teu propi robot a l'estil google per començar a baixar el contingut de les pàgines i emmagatzemar-lo en la teva pròpia base de dades i fer el qu vulguis després amb aquesta data.

  14.   Carles G va dir

    Em sembla molt interessant aquesta eina, mai havia posat atenció als seus paràmetres, m'agradaria saber si es pot descarregar contingut d'una pàgina «X» a la qual es necessita estar loggejat per entrar, i si és que en algun lloc d'aquest lloc « X »ha algun vídeo, també ho descarregaria encara que pertanyi a un CDN diferent a el lloc« X »?

    Si això fos possible com es protegeix contra un lloc contra una eina així?

    Salutacions!

  15.   Erick Zanardi va dir

    Bona nit:

    Els escric per a una consulta. Vaig descarregar amb l'últim comando d'aquest article, gairebé 300MB d'informació .. arxius .swf, .js, .html, des de la pàgina http://www.netacad.com/es amb el meu usuari d'un petit curs que vaig realitzar a Maracay, Veneçuela.

    La meva pregunta és ... Hi haurà possibilitat de veure les animacions flash?

    Ingrés a «Configuració Global» i les opcions que mostra cap em permet configurar.

    Agraeixo alguna resposta.

    Gràcies per endavant!

    1.    ADX va dir

      tinc el mateix detall, els .swf es descarreguen a mitges, si aconsegueixes saltar-me comparteixes info. El que vaig fer d'ultimo intent va ser usar un spider per obtenir tots els enllaços de l'NetAcad però així i tot els .swf no acaben de descarregar-com hauria

  16.   alejandro.hernandez va dir

    molt bo !!! gràcies.

  17.   Ana va dir

    Hola, gràcies per la teva Estatut. Intento descarregar-me un bloc en el que estic convidada, amb contrasenya, per poder-lo llegir des de casa sense connexió. Ús aquest programa, i òbviament, tinc la contrasenya de l'bloc (wordpress), però no sé com procedir. Podries indicar-me?
    Gràcies amb antelació i una salutació!

  18.   Fran va dir

    que gran post !!!

  19.   Santiago va dir

    excel·lent m'ha servit bastant

  20.   Fran va dir

    Estic loguejat en un web amb videos de vimeo incrustrados i no hi ha manera que es descarreguin .. sembla com si vimeo els tingués protegits. Alguna idea ??