Amb el terminal: Baixar un lloc web complet amb Wget

Res millor que Wikipedia per explicar en què consisteix aquesta eina:

GNU WGET és una eina de programari lliure que permet la descàrrega de continguts des de servidors web d'una forma simple. El seu nom deriva de World Wide Web (w), i de «obtenir» (en anglès get), això vol dir: obtenir des de la WWW.

Actualment suporta descàrregues mitjançant els protocols HTTP, HTTPS i FTP.

Entre les característiques més destacades que ofereix wget hi ha la possibilitat de fàcil descàrrega de mirrors (miralls) complexos de forma recursiva, conversió d'enllaços per a la visualització de continguts HTML localment, suport per proxies ...

És cert que hi ha altres aplicacions que ens ajuden a realitzar aquest tipus de tasques com HTTrack o fins i tot extensions per Firefox com a Bloc de notes, Però res com la senzillesa d'un terminal 😀

Fent la màgia

Em va resultar curiós en la pel·lícula: La Xarxa Social, Com el personatge de Mark_Zuckerberg fa servir la frase: «Una mica de wget màgic«, Quan es disposava a descarregar les fotos per Facemash 😀 i és cert, wget permet fer màgia amb els paràmetres adequats.

Vegem un parell d'exemple, comencem amb l'ús senzill de l'eina.

Per baixar una pàgina:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Per baixar el lloc complet de forma recursiva, incloent imatges i altres tipus de dades:

$ wget -r https://blog.desdelinux.net/

I aquí ve la màgia. Com bé ens expliquen en l'article de humans, Molts llocs verifiquen la identitat de l'navegador per aplicar diverses restriccions. amb wget podem burlar això de la següent manera:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

O també podem fer pausa entre cada pàgina, ja que en cas contrari l'amo de el lloc pot adonar-se que i estem baixant el lloc completament amb wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.

  1.   pandev92 va dir

    No hi ha alguna cosa per baixar només les imatges xd?

    1.    Valor va dir

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Que et acabo de llegir la ment jajajaja

      1.    pandev92 va dir

        lol oo xd

    2.    KZKG ^ Gaara va dir

      home wget ;)

      1.    pandev92 va dir

        La vida és massa curta com per llegir mans.

        1.    KZKG ^ Gaara va dir

          La vida és molt curta per omplir el cervell d'informació, però tot i així és vàlid intentar-🙂

          1.    pandev92 va dir

            Informació val la pena a mitja, prefereixo omplir-la de dones, jocs i diners si és possible XD.

          2.    Valor va dir

            Fotre sempre estàs pensant en dones. D'aquí a res estaràs escoltant Dadee Yankee, Don Omar i Wisin I Yandel com fa KZKG ^ Gaara.

            Dedíacate millor a els diners, que és el més important que hi ha en aquesta vida

            1.    KZKG ^ Gaara va dir

              Hi ha coses que valen molt més que els diners ... per exemple, quedar en la història, marcar la diferència, ser recordat per quant vas aconseguir aportar a el món; i no per quants diners vas tenir quan vas morir 😉

              Intenta no tornar-te un home d'èxit sinó un home de valor, Albert Einsein.


          3.    Valor va dir

            ¿I això ho pot fer un captaire que viu sota un pont sense tene un dur?

            doncs no

          4.    Valor va dir

            * tenir

          5.    pandev92 va dir

            Courage, vaig tenir el meu epoca reguetonera i perquè ja no, d'això fa anys, jo només escolto música japonesa i música clàssica, i amb els diners ... estem treballant en això :).

          6.    pandev92 va dir

            Tant me fa ser recordat gara, quan m'hauré mort em haure mort i que es fotin els altres, atès que jo ni tan sols podre saber el que pensen de mi. Que val ser recordat sinó pots enorgullecerte d'això xD.

    3.    hiperamor_x va dir

      Per descarregar un tipus específic d'arxius podis utilitzar filtres:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      I un consell, Si van a clonar una pàgina molt gran el recomanable és que ho facin a través d'algun intermediari com tor, perquè si no hi ha certes pàgines que arribat a cert nombre de peticions seguides et bloqueja la IP durant diverses hores o dies .
      L'altra vegada em pas això quan vaig voler clonar una wiki.

    4.    mdir va dir

      Una extensió, que ús en Firefox baixa només imatges; es diu «Save Images 0.94»

  2.   Lleopard va dir

    eh XNUMX preguntonta jeje on es guarden els arxius que descàrrec? Em voldran matar no? jajaja

    1.    KZKG ^ Gaara va dir

      Els arxius es descarreguen a la carpeta on estiguis situat a la terminal a l'hora d'executar el wget 😉

  3.   AurosZx va dir

    Ahh, no em imagini que wget pogués tenir un ús tan interessant ... Ara, pel que fa a l'ús que esmenta Courage ... Sense paraules 😉

  4.   Carlos-Xfce va dir

    Algú sap si existeix alguna extensió ( «plug-in») de WordPress que impedeixi que Wget descague teu bloc?

  5.   Darzee va dir

    Doncs em ve genial !! gràcies

  6.   piolavski va dir

    Molt bo, provem a veure que tal, gràcies per l'aportació.

  7.   lyairmg va dir

    Encara que em considero principiant això es em fa senzill ara intentaré barrejar-lo amb altres coses i veure que dóna ....

  8.   Oswaldo va dir

    Espero em puguin ajudar perquè és per al dilluns 3 de desembre de l'any 2012

    El projecte a desenvolupar és el següent:

    Reubicacion d'un lloc web ajustant les referències href.
    1.-Considerant un lloc web, descarregar el lloc complet a un directori local mitjançant la comanda wget. I mitjançant un script de la seva autoria realitzar les següents operacions:

    1.1.-Crear un directori independent per a cada tipus de contingut: imatges gif, imatges jpeg, etc, vídeos avi, vídeos mpg, etc, àudio mp3, àudio wav, etc., contingut web (HTML, javascript, etc).

    1.2.-Una vegada que s'ha reubicat cada un d'aquests continguts, dur a terme l'ajust de les referències feia les ubicacions locals de cada recurs de el lloc.

    1.3.-Activa un servidor web, i configurar el directori arrel on es troba el suport de el lloc web com el directori root de l'servidor web local.

    1.4.-Nota: la comanda wget només es podrà fer servir amb les opcions següents:
    -recursive
    -domains
    -page-requisites
    Si per alguna raó són necessari més ordres, utilitzar els necessaris.

    1.    KZKG ^ Gaara va dir

      Per descarregar aquí crec que tens la solució en el post, ara ... per moure arxius i reemplaçar les rutes, jo vaig haver de fer una cosa així fa un temps en el meu treball, et deixo l'script que vaig usar: http://paste.desdelinux.net/4670

      El modifiqueu tenint en compte el tipus d'arxiu i la ruta, és a dir, com estan conformats els .HTMLs de el lloc teu i això.

      Això no és la solució 100% doncs has de fer-li alguns arranjaments o canvis però, et garanteixo que és el 70 o 80% de tot el treball 😉

      1.    Oswaldo va dir

        Gràcies KZKG ^ Gaara m'ha estat de gran ajuda

  9.   Debd va dir

    jo sempre he fet servir HTTrack. Scrapbook per firefox vaig a provar-ho, però el de wget m'encanta. Gràcies!

  10.   Daniel PZ va dir

    Man, no em funco la comanda ... aquest si em funko bé:

    wget -random-wait -r -p -i robots = off -U mozilla http://www.example.com

    1.    Daniel va dir

      Moltes gràcies! El vaig fer servir amb els paràmetres proposats per Daniel PZ i no vaig tenir problemes 🙂

  11.   Rubén Almaguer va dir

    Gràcies, noi, això ho feia amb wget en el meu puppy linux però no sabia com es fa en terminal. una salutació

  12.   pistonud va dir

    on guarda les pagines ??

    1.    Picat va dir

      On tinguis oberta la terminal. Al principi, a la teva carpeta arrel d'usuari, tret que li indiquis una altra ruta.

  13.   fernando va dir

    També baixa els enllaços? o sigui si hi ha un enllaç a un pdf o un altre document també el descarrega?

  14.   raul va dir

    Que puc fer per baixar el meu bloc complet, ho intenti i el que baix no ho puc veure sembla que està en codis o bloquejat, tot i trigar moltes hores per baixar però només la pàgina inicial es pot llegir, que em recomana per poder baixar el meu blog, gràcies raul.

  15.   Lleó va dir

    hola, un dubte és possible reemplaçar els links dins els html, per posteriorment poder navergar per la pagina descarregada com si fos l'original.

    el que passa és que descarregui la pagina i quan la vaig obrir des dels fitxers no em prenia els .css ni els .js i els links a la pàgina em porten a la pàgina a Internet.