Cu terminalul: Descărcați un site web complet cu Wget

Nimic mai bun decât Wikipedia pentru a explica în ce constă acest instrument:

GNU Wget este un instrument software gratuit care permite descărcarea conținutului de pe serverele web într-un mod simplu. Numele său provine de la World Wide Web (w) și de la „get” (în engleză get), aceasta înseamnă: obține de la WWW.

În prezent, acceptă descărcări utilizând protocoalele HTTP, HTTPS și FTP.

Printre cele mai remarcabile caracteristici pe care le oferă wget există posibilitatea descărcării ușoare a oglinzilor complexe recursiv, conversia linkurilor pentru a afișa conținut HTML local, suport pentru proxy ...

Este adevărat că există și alte aplicații care ne ajută să realizăm acest tip de lucrări precum httrack sau chiar extensii pentru Firefox ca scrapbook, dar nimic ca simplitatea unui terminal 😀

Făcând magia

Eram curios de film: The Social Network, ca personaj al mark_zuckerberg folosește expresia: «Un pic de magie«, Când eram pe punctul de a descărca fotografiile pentru Facemash 😀 și este adevărat, wget vă permite să faceți magie cu parametrii corespunzători.

Să vedem câteva exemple, să începem cu utilizarea simplă a instrumentului.

Pentru a coborî o pagină:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Pentru a descărca întregul site recursiv, inclusiv imagini și alte tipuri de date:

$ wget -r https://blog.desdelinux.net/

Și aici vine magia. După cum ne explică în articolul din Oamenii, multe site-uri verifică identitatea browserului pentru a aplica diferite restricții. Cu wget putem eluda acest lucru în felul următor:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Sau putem, de asemenea, să facem o pauză între fiecare pagină, altfel proprietarul site-ului ar putea realiza că descărcăm site-ul complet cu wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


34 comentarii, lasă-le pe ale tale

Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.

  1.   pandev92 el a spus

    Există ceva de descărcat doar imaginile xd?

    1.    Curaj el a spus
      1.    pandev92 el a spus

        lol oo xd

    2.    KZKG ^ Gaara el a spus

      om wget ????

      1.    pandev92 el a spus

        Viața este prea scurtă pentru a citi bărbați.

        1.    KZKG ^ Gaara el a spus

          Viața este prea scurtă pentru a umple creierul cu informații, dar este încă valabil să încerci 🙂

          1.    pandev92 el a spus

            Informațiile valorează jumătate, prefer să le completez cu femei, jocuri și bani, dacă este posibil XD.

          2.    Curaj el a spus

            Te gândești mereu la femei. De acum înainte îi veți asculta pe Dadee Yankee, Don Omar și Wisin Y Yandel, așa cum o face KZKG ^ Gaara.

            Dedicați-vă mai bine banilor, care este cel mai important lucru din această viață

            1.    KZKG ^ Gaara el a spus

              Există lucruri care valorează mult mai mult decât banii ... de exemplu, să fii în istorie, să faci diferența, să fii amintit pentru cât ai reușit să contribui la lume; și nu pentru câți bani ai avut când ai murit 😉

              Încearcă să nu devii un om al succesului, ci un om al curajului, Albert Einsein.


          3.    Curaj el a spus

            Și poate un cerșetor care trăiește sub un pod să facă asta fără să aibă un ban?

            Ei bine, nu

          4.    Curaj el a spus

            *a avea

          5.    pandev92 el a spus

            Curaj, am avut epoca mea de reggaeton și nu mai, asta a fost cu ani în urmă, ascult doar muzică japoneză și muzică clasică, iar cu banii ... lucrăm la asta :)

          6.    pandev92 el a spus

            Nu-mi pasă să-mi fie amintit gara, când voi fi murit, voi fi murit și voi înșela pe ceilalți, deoarece nici măcar nu voi putea să știu ce cred ei despre mine. Ce merită să vă amintiți, dar vă puteți mândri cu asta xD.

    3.    hypersayan_x el a spus

      Pentru a descărca un anumit tip de fișiere puteți utiliza filtre:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      Și un sfat, dacă aveți de gând să clonați o pagină foarte mare, este recomandat să o faceți printr-un proxy cum ar fi tor, pentru că altfel există anumite pagini care au atins un anumit număr de solicitări consecutive, blocându-vă adresa IP timp de câteva ore sau zile .
      Cealaltă dată mi s-a întâmplat când am vrut să clonez un wiki.

    4.    mdir el a spus

      O extensie, pe care o folosesc în Firefox, descarcă doar imagini; se numește „Salvați imagini 0.94”

  2.   maro el a spus

    eh o întrebare hehe unde sunt salvate fișierele pe care le descarc? Vor vrea să mă omoare, nu? laugh out Loud

    1.    KZKG ^ Gaara el a spus

      Fișierele sunt descărcate în folderul în care vă aflați în terminal în momentul executării wget 😉

  3.   auroszx el a spus

    Ahh, nu mi-am imaginat că wget ar putea avea o utilizare atât de interesantă ... Acum, cu privire la utilizarea pe care Courage o menționează ... Fără cuvinte 😉

  4.   Carlos-Xfce el a spus

    Știe cineva dacă există un plugin WordPress care împiedică Wget să descarce blogul tău?

  5.   darzee el a spus

    Ei bine, este minunat pentru mine !! Mulțumesc

  6.   piolavski el a spus

    Foarte bine, să încercăm să vedem cum, mulțumim pentru contribuție.

  7.   lyairmg el a spus

    Deși mă consider un începător, acest lucru este ușor pentru mine acum, voi încerca să-l amestec cu alte lucruri și să văd ce dă….

  8.   oswaldo el a spus

    Sper că mă puteți ajuta pentru că este pentru luni, 3 decembrie 2012

    Proiectul care urmează să fie dezvoltat este următorul:

    Relocarea unui site web prin ajustarea referințelor href.
    1.-Luând în considerare un site Web, descărcați site-ul complet într-un director local folosind comanda wget. Și, prin intermediul unui script al autorului dvs., efectuați următoarele operații:

    1.1.-Creați un director independent pentru fiecare tip de conținut: imagini gif, imagini jpeg, etc, videoclipuri avi, videoclipuri mpg etc., audio mp3, wav audio etc., conținut web (HTML, javascript etc.).

    1.2.-Odată ce fiecare dintre aceste conținuturi a fost mutat, efectuați ajustarea referințelor la locațiile locale ale fiecărei resurse de pe site.

    1.3.-Activați un server Web și configurați directorul rădăcină în care se află backupul site-ului web ca director rădăcină al serverului web local.

    1.4.-Notă: comanda wget poate fi utilizată numai cu următoarele opțiuni:
    –Recursiv
    –Domenii
    –Pagină-cerințe
    Dacă din anumite motive sunt necesare mai multe comenzi, utilizați-le pe cele necesare.

    1.    KZKG ^ Gaara el a spus

      Pentru a descărca aici, cred că aveți soluția în postare, acum ... pentru a muta fișiere și a înlocui căile, a trebuit să fac așa ceva acum ceva timp în munca mea, vă las scriptul pe care l-am folosit: http://paste.desdelinux.net/4670

      Îl modificați luând în considerare tipul de fișier și calea, adică modul în care sunt formate .HTML-urile site-ului dvs. și asta.

      Aceasta nu este soluția 100%, deoarece trebuie să faceți unele aranjamente sau modificări, dar vă garantez că reprezintă 70 sau 80% din toată munca 😉

      1.    oswaldo el a spus

        Mulțumesc KZKG ^ Gaara mi-a fost de mare ajutor

  9.   creanţă el a spus

    Am folosit întotdeauna httrack. Scrapbook pentru Firefox Voi încerca, dar îmi place wget. Mulțumesc!

  10.   Daniel PZ el a spus

    Omule, comanda nu a funcționat pentru mine ... aceasta a funcționat bine pentru mine:

    wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

    1.    Daniel el a spus

      Mulțumesc mult! L-am folosit cu parametrii propuși de Daniel PZ și nu am avut probleme 🙂

  11.   Ruben Almaguer el a spus

    Mulțumesc băiete, am făcut asta cu WGet pe catelul meu Linux, dar nu știam cum să fac asta în terminal. un salut

  12.   încăpăţânat el a spus

    unde păstrezi paginile?

    1.    Tocat el a spus

      Unde aveți terminalul deschis. La început, în folderul rădăcină al utilizatorului, cu excepția cazului în care indicați o altă cale.

  13.   Fernando el a spus

    Descărcați și linkurile? Deci, dacă există un link către un pdf sau un alt document, îl descărcați și voi?

  14.   raul el a spus

    Ce pot face pentru a descărca întregul meu blog, am încercat și ceea ce nu văd pare să fie în coduri sau blocat, în ciuda faptului că a durat multe ore pentru a descărca, dar numai pagina inițială poate fi citită, pe care vă recomand să o descărcați blogul meu, multumesc raul.

  15.   Leu el a spus

    salut, îndoială, este posibil să înlocuiți link-urile din html, pentru a putea răsfoi ulterior pagina descărcată ca și cum ar fi originalul.

    Ce se întâmplă este că descarc pagina și când am deschis-o din fișierele descărcate nu am luat .css sau .js și linkurile de pe pagină mă conduc la pagina de pe Internet.