Gamit ang terminal: Mag-download ng isang kumpletong website gamit ang Wget

Walang mas mahusay kaysa sa Wikipedia upang ipaliwanag kung ano ang binubuo ng tool na ito:

GNU Wget ay isang libreng tool ng software na nagbibigay-daan sa pag-download ng nilalaman mula sa mga web server sa isang simpleng paraan. Ang pangalan nito ay nagmula sa World Wide Web (w), at mula sa "get" (sa English get), nangangahulugan ito: kumuha mula sa WWW.

Sa kasalukuyan sinusuportahan nito ang mga pag-download gamit ang mga HTTP, HTTPS at FTP na mga protocol.

Kabilang sa mga pinaka-natitirang tampok na inaalok nito wget mayroong posibilidad ng madaling pag-download ng mga kumplikadong salamin nang paulit-ulit, pag-convert ng mga link upang maipakita ang nilalaman ng HTML nang lokal, suporta para sa mga proxy ...

Totoo na may iba pang mga application na makakatulong sa amin upang maisagawa ang ganitong uri ng trabaho tulad ng httrack o kahit na mga extension para sa Firefox bilang Kakumpitensya, ngunit walang katulad sa pagiging simple ng isang terminal 😀

Paggawa ng mahika

Nausisa ako sa pelikula: Ang Social Network, bilang tauhan ng Mark Zuckerberg gamitin ang parirala: «Isang piraso ng magic wget«, Nang i-download ko na sana ang mga larawan para sa Facemash 😀 at totoo ito, wget Pinapayagan kang gumawa ng mahika sa mga naaangkop na mga parameter.

Tingnan natin ang isang pares ng mga halimbawa, magsimula tayo sa simpleng paggamit ng tool.

Upang bumaba sa isang pahina:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Upang mai-download ang buong site nang paulit-ulit, kabilang ang mga imahe at iba pang mga uri ng data:

$ wget -r https://blog.desdelinux.net/

At narito ang mahika. Tulad ng ipinaliwanag nila sa amin sa artikulo ng Mga Tao, maraming mga site ang nagpapatunay ng pagkakakilanlan ng browser upang mag-apply ng iba't ibang mga paghihigpit. Kasama si wget maiiwasan natin ito sa sumusunod na paraan:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

O maaari din kaming mag-pause sa pagitan ng bawat pahina, dahil kung hindi man ay maaaring mapagtanto ng may-ari ng site na ganap naming nai-download ang site wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.

  1.   pandev92 dijo

    Mayroong isang bagay na mai-download lamang ang mga imahe xd?

    1.    tapang dijo
      1.    pandev92 dijo

        lol oo xd

    2.    KZKG ^ Gaara dijo

      tao wget ????

      1.    pandev92 dijo

        Ang buhay ay masyadong maikli upang mabasa ang mans.

        1.    KZKG ^ Gaara dijo

          Ang buhay ay masyadong maikli upang punan ang utak ng impormasyon, ngunit wasto pa rin ito upang subukan 🙂

          1.    pandev92 dijo

            Ang impormasyon ay nagkakahalaga ng kalahati, mas gusto kong punan ito ng mga kababaihan, laro at pera kung maaari XD.

          2.    tapang dijo

            Palagi kang nakikipag-usap tungkol sa mga kababaihan. Mula ngayon ay pakikinggan mo na sina Dadee Yankee, Don Omar at Wisin Y Yandel tulad ng ginagawa ng KZKG ^ Gaara.

            Mas italaga ang iyong sarili sa pera, na kung saan ay ang pinakamahalagang bagay sa buhay na ito

            1.    KZKG ^ Gaara dijo

              May mga bagay na higit na nagkakahalaga kaysa sa pera ... halimbawa, pagiging nasa kasaysayan, paggawa ng isang pagkakaiba, maaalala para sa kung magkano ang pinamamahalaang mag-ambag sa mundo; at hindi sa kung magkano ang pera mo noong namatay ka 😉

              Subukan na hindi maging isang tao ng tagumpay ngunit isang tao ng tapang, Albert Einsein.


          3.    tapang dijo

            At maaari bang gawin iyon ng isang pulubi na nakatira sa ilalim ng isang tulay nang walang isang sentimo?

            Hindi

          4.    tapang dijo

            * magkaroon

          5.    pandev92 dijo

            Tapang, nagkaroon ako ng aking panahon ng reggaeton at hindi na, iyon ay mga taon na ang nakararaan, nakikinig lamang ako ng musika sa Hapon at klasikal na musika, at sa pera ... ginagawa namin ito :).

          6.    pandev92 dijo

            Wala akong pakialam na maalala alaala, kung kailan ako mamamatay ay mamamatay ako at iikot ang iba, dahil hindi ko man malalaman kung ano ang iniisip nila sa akin. Ano ang sulit na alalahanin ngunit maipagmamalaki mo ito xD.

    3.    hypersayan_x dijo

      Upang mag-download ng isang tukoy na uri ng mga file na maaari mong gamitin ang mga filter:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      At isang tip, kung i-clone mo ang isang napakalaking pahina, inirerekumenda na gawin mo ito sa pamamagitan ng isang proxy tulad ng tor, dahil kung hindi man may ilang mga pahina na naabot ang isang tiyak na bilang ng magkakasunod na mga kahilingan, hinaharangan ang iyong IP sa loob ng maraming oras o araw .
      Ang iba pang oras na nangyari sa akin noong nais kong i-clone ang isang wiki.

    4.    mdir dijo

      Ang isang extension, na ginagamit ko sa Firefox, ay mga imahe lamang ang naida-download; tinatawag itong "I-save ang Mga Larawan 0.94"

  2.   Pardo dijo

    eh isang tanong hehe saan naka-save ang mga file na nai-download ko? Gusto nila akong patayin, tama ba? lol

    1.    KZKG ^ Gaara dijo

      Ang mga file ay nai-download sa folder kung saan ka matatagpuan sa terminal kapag nagpapatupad ng wget 😉

  3.   auroszx dijo

    Ahh, hindi ko naisip na ang wget ay maaaring magkaroon ng isang kagiliw-giliw na paggamit ... Ngayon, patungkol sa paggamit na binanggit ng Tapang ... Walang mga salita 😉

  4.   Carlos-Xfce dijo

    Mayroon bang nakakaalam kung mayroong isang plug-in sa WordPress na pumipigil sa Wget mula sa pag-download ng iyong blog?

  5.   darzee dijo

    Well, ito ay mahusay para sa akin !! Salamat

  6.   piolavski dijo

    Napakahusay, subukang makita kung paano, salamat sa kontribusyon.

  7.   lyairmg dijo

    Kahit na isaalang-alang ko ang aking sarili bilang isang nagsisimula madali para sa akin ngayon susubukan kong ihalo ito sa iba pang mga bagay at makita kung ano ang ibinibigay nito ....

  8.   oswaldo dijo

    Inaasahan kong matutulungan mo ako dahil ito ay para sa Lunes, Disyembre 3, 2012

    Ang proyektong bubuo ay ang sumusunod:

    Paglipat ng isang website sa pamamagitan ng pagsasaayos ng mga sanggunian ng href.
    1.-Isinasaalang-alang ang isang Web site, i-download ang kumpletong site sa isang lokal na direktoryo gamit ang utos ng wget. At sa pamamagitan ng isang script ng iyong akda, gawin ang mga sumusunod na operasyon:

    1.1.-Lumikha ng isang independiyenteng direktoryo para sa bawat uri ng nilalaman: gif na mga imahe, mga imahe ng jpeg, atbp, mga avi video, mpg video, atbp, mp3 audio, wav audio, atbp, nilalaman ng web (HTML, javascript, atbp)

    1.2.-Kapag ang bawat isa sa mga nilalaman ay nailipat, isagawa ang pagsasaayos ng mga sanggunian sa mga lokal na lokasyon ng bawat mapagkukunan sa site.

    1.3.-Paganahin ang isang Web server, at i-configure ang root direktoryo kung saan matatagpuan ang backup ng Web site bilang root direktoryo ng lokal na Web server.

    1.4.-Tandaan: ang utos na utos ay maaari lamang magamit sa mga sumusunod na pagpipilian:
    –Recursive
    –Domains
    –Mga kahilingan sa pahina
    Kung sa ilang kadahilanan kinakailangan ang higit pang mga utos, gamitin ang mga kinakailangan.

    1.    KZKG ^ Gaara dijo

      Upang mag-download dito sa palagay ko mayroon kang solusyon sa post, ngayon ... upang ilipat ang mga file at palitan ang mga landas, kailangan kong gumawa ng tulad nito kanina pa sa aking trabaho, iniiwan ko sa iyo ang script na ginamit ko: http://paste.desdelinux.net/4670

      Binago mo ito na isinasaalang-alang ang uri ng file at ang landas, iyon ay, kung paano nabuo ang .HTMLs ng iyong site at iyon.

      Hindi ito ang 100% na solusyon sapagkat dapat kang gumawa ng ilang mga pag-aayos o pagbabago ngunit, ginagarantiyahan ko sa iyo na ito ay 70 o 80% ng lahat ng gawain 😉

      1.    oswaldo dijo

        Salamat KZKG ^ Si Gaara ay naging isang malaking tulong sa akin

  9.   Utang dijo

    Palagi akong gumagamit ng httrack. Scrapbook para sa firefox Susubukan ko ito, ngunit gusto ko ang wget. Salamat!

  10.   Daniel PZ dijo

    Tao, hindi gumana ang utos para sa akin ... ang isang ito ay gumagana nang maayos para sa akin:

    wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

    1.    Daniel dijo

      Maraming salamat! Ginamit ko ito sa mga parameter na iminungkahi ni Daniel PZ at wala akong mga problema 🙂

  11.   Ruben Almaguer dijo

    Salamat batang lalaki, ginawa ko iyon sa WGet sa aking tuta ng Linux ngunit hindi ko alam kung paano ito gawin sa terminal. isang pagbati

  12.   matigas ang ulo dijo

    saan mo itatago ang mga pahina?

    1.    Palakol dijo

      Kung saan bukas ang terminal. Sa una, sa iyong folder ng root ng gumagamit, maliban kung tumutukoy ka ng isa pang landas.

  13.   Fernando dijo

    I-download din ang mga link? Kaya't kung may isang link sa isang pdf o ibang dokumento, nai-download mo din ba ito?

  14.   raul dijo

    Ano ang magagawa ko upang mai-download ang aking buong blog, sinubukan ko at ang hindi ko makita ay tila nasa mga code o naka-block, sa kabila ng maraming oras upang mag-download ngunit ang paunang pahina lamang ang maaaring mabasa, na inirerekumenda kong i-download ang aking blog, salamat raul.

  15.   Leo dijo

    hello, isang pag-aalinlangan posible na palitan ang mga link sa loob ng html, upang mag-browse sa ibang pagkakataon sa pag-download na pahina na parang ito ay orihinal.

    Ang nangyayari ay naida-download ko ang pahina at nang buksan ko ito mula sa na-download na mga file ay hindi ko kinuha ang .css o .js at ang mga link sa pahina ay humantong sa akin sa pahina sa Internet.