С терминала: Изтеглете пълен уебсайт с Wget

Нищо по-добро от това Уикипедия за да обясня от какво се състои този инструмент:

GNU Wget е безплатен софтуерен инструмент, който позволява изтеглянето на съдържание от уеб сървъри по лесен начин. Името му произлиза от World Wide Web (w), а от „get“ (на английски get), това означава: вземете от WWW.

В момента той поддържа изтегляния с помощта на HTTP, HTTPS и FTP протоколи.

Сред най-забележителните функции, които предлага Wget има възможност за лесно изтегляне на сложни огледала рекурсивно, конвертиране на връзки за показване на HTML съдържание локално, поддръжка за прокси сървъри ...

Вярно е, че има и други приложения, които ни помагат да изпълняваме този вид работа като httrack или дори разширения за Firefox като лексикон, но нищо подобно на простотата на терминал 😀

Правейки магията

Бях любопитен за филма: The Social Network, като характер на Марк Зукърбърг използвайте фразата: «Малко вълшебно устройство«, Когато щях да изтегля снимките за Facemash 😀 и е истина, Wget ви позволява да правите магия със съответните параметри.

Нека разгледаме няколко примера, нека започнем с простото използване на инструмента.

За да слезете на страница:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

За да изтеглите рекурсивно целия сайт, включително изображения и други видове данни:

$ wget -r https://blog.desdelinux.net/

И тук идва магията. Както е добре обяснено в статията на Хора, много сайтове проверяват самоличността на браузъра, за да приложат различни ограничения. С wget можем да заобиколим това по следния начин:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Или можем да направим пауза между всяка страница, в противен случай собственикът на сайта може да осъзнае, че изтегляме сайта изцяло с wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.

  1.   pandev92 каза той

    Има ли нещо за изтегляне само на изображенията xd?

    1.    смелост каза той

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Че току що прочетох мислите ти хахахаха

      1.    pandev92 каза той

        хаха oo xd

    2.    KZKG ^ Гаара каза той

      човек wget ????

      1.    pandev92 каза той

        Животът е твърде кратък, за да се чете.

        1.    KZKG ^ Гаара каза той

          Животът е твърде кратък, за да изпълни мозъка с информация, но все пак е валидно да опитате 🙂

          1.    pandev92 каза той

            Информацията струва наполовина, предпочитам да я пълня с жени, игри и пари, ако е възможно XD.

          2.    смелост каза той

            Винаги мислиш за жени. Отсега нататък ще слушате Dadee Yankee, Don Omar и Wisin Y Yandel както KZKG ^ Gaara.

            Посветете се по-добре на парите, които са най-важното в този живот

            1.    KZKG ^ Гаара каза той

              Има неща, които струват много повече от пари ... например да си в историята, да правиш разлика, да си запомнен с това колко си успял да допринесеш за света; а не за колко пари сте имали, когато сте умрели 😉

              Опитайте се да не станете човек на успеха, а човек на смелост, Алберт Айнсеин.


          3.    смелост каза той

            И може ли просякът, живеещ под мост, да прави това, без да има и стотинка?

            Е, не

          4.    смелост каза той

            *имам

          5.    pandev92 каза той

            Смелост, имах моята регетон ера и вече не, това беше преди години, слушам само японска музика и класическа музика, а с парите ... работим върху това :).

          6.    pandev92 каза той

            Не ме интересува да ме помнят гара, когато ще умра, ще умра и ще прецакам останалите, тъй като дори няма да мога да разбера какво мислят за мен. Какво си струва да бъдете запомнени, но можете да се гордеете с него xD.

    3.    hypersayan_x каза той

      За да изтеглите определен тип файлове, можете да използвате филтри:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      И съвет, ако ще клонирате много голяма страница, препоръчително е да го направите чрез прокси като tor, защото в противен случай има определени страници, които са достигнали до определен брой последователни заявки, блокирайки вашия IP за няколко часове или дни.
      Другият път ми се случи, когато исках да клонирам wiki.

    4.    Мдир каза той

      Разширение, което използвам във Firefox, изтегля само изображения; нарича се "Запазване на изображения 0.94"

  2.   Пардо каза той

    ех въпрос хехе къде са записани файловете, които изтеглям? Ще искат да ме убият, нали? LOL

    1.    KZKG ^ Гаара каза той

      Файловете се изтеглят в папката, в която се намирате в терминала по време на изпълнение на wget 😉

  3.   auroszx каза той

    Ааа, не си представях, че wget може да има толкова интересна употреба ... Сега, що се отнася до употребата, която споменава Courage ... Без думи 😉

  4.   Карлос-Xfce каза той

    Някой знае ли дали има приставка за WordPress, която пречи на Wget да изтегли вашия блог?

  5.   скъпа каза той

    Е, чудесно ми е !! Благодаря ти

  6.   пиолавски каза той

    Много добре, нека се опитаме да видим как, благодаря за приноса.

  7.   lyairmg каза той

    Въпреки че се считам за начинаещ, сега ми е лесно, ще се опитам да го смеся с други неща и да видя какво дава ...

  8.   Освалдо каза той

    Надявам се, че можете да ми помогнете, защото е за понеделник, 3 декември 2012 г.

    Проектът, който ще бъде разработен, е следният:

    Преместване на уебсайт чрез коригиране на href референциите.
    1.-Разглеждайки уеб сайт, изтеглете целия сайт в локална директория, като използвате командата wget. И с помощта на сценарий на вашето авторство изпълнете следните операции:

    1.1.-Създайте независима директория за всеки тип съдържание: gif изображения, jpeg изображения и др., Avi видео, mpg видео и др., Mp3 аудио, wav аудио и др., Уеб съдържание (HTML, javascript и др.).

    1.2.-След като всяко от тези съдържания бъде преместено, извършете корекцията на препратките към локалните местоположения на всеки ресурс на сайта.

    1.3.-Активирайте уеб сървър и конфигурирайте главната директория, където се намира архивирането на уеб сайта, като основната директория на локалния уеб сървър.

    1.4.-Забележка: командата wget може да се използва само със следните опции:
    –Рекурсивен
    –Домейни
    –Страници-реквизити
    Ако по някаква причина са необходими повече команди, използвайте необходимите.

    1.    KZKG ^ Гаара каза той

      За да изтеглите тук, мисля, че имате решението в публикацията, сега ... за преместване на файлове и замяна на пътищата, трябваше да направя нещо подобно преди малко в работата си, оставям ви скрипта, който използвах: http://paste.desdelinux.net/4670

      Можете да го модифицирате, като вземете предвид вида на файла и пътя, т.е. как се формират .HTML-овете на вашия сайт и това.

      Това не е 100% решение, защото трябва да направите някакви мерки или промени, но ви гарантирам, че това е 70 или 80% от цялата работа 😉

      1.    Освалдо каза той

        Благодаря KZKG ^ Gaara ми беше от голяма помощ

  9.   Дълг каза той

    Винаги съм използвал httrack. Албум за firefox Ще го пробвам, но обичам wget. Благодаря ти!

  10.   Даниел PZ каза той

    Човече, командата не работи за мен ... тази работи добре за мен:

    wget –random-wait -r -p -e robots = изключено -U mozilla http://www.example.com

    1.    Daniel каза той

      Благодаря много! Използвах го с параметрите, предложени от Daniel PZ и нямах проблеми 🙂

  11.   Рубен Алмагер каза той

    Благодаря момче, направих това с WGet на моето кученце на Linux, но не знаех как да го направя в терминала. поздрав

  12.   пистонудо каза той

    къде държиш страниците?

    1.    Нарязан каза той

      Където сте отворили терминала. Първо в основната папка на потребителя, освен ако не посочите друг път.

  13.   Фернандо каза той

    Да изтеглите ли и връзките? Така че, ако има връзка към pdf или друг документ, изтегляте ли го и вие?

  14.   Раул каза той

    Какво мога да направя, за да изтегля целия си блог, опитах и ​​това, което не мога да видя, изглежда е в кодове или блокирано, въпреки че отнема много часове за изтегляне, но може да се прочете само началната страница, която препоръчвам да изтеглите моя блог, благодаря raul.

  15.   Лъв каза той

    Здравейте, съмнение е, че е възможно да замените връзките в html, за да можете по-късно да разглеждате изтеглената страница, сякаш е оригиналът.

    Това, което се случва е, че изтеглям страницата и когато я отворя от изтеглените файлове, не взех .css или .js и връзките на страницата ме отвеждат до страницата в Интернет.