За допомогою терміналу: Завантажте повний веб-сайт за допомогою Wget

Нічого кращого ніж Вікіпедія пояснити, з чого складається цей інструмент:

GNU Wget це безкоштовний програмний інструмент, який дозволяє завантажувати вміст з веб-серверів простим способом. Його назва походить від World Wide Web (w), а від "get" (англійською мовою get) це означає: отримати від WWW.

В даний час він підтримує завантаження за допомогою протоколів HTTP, HTTPS та FTP.

Серед найвидатніших функцій, які він пропонує Wget є можливість легкого завантаження складних дзеркал рекурсивно, перетворення посилань для локального відображення вмісту HTML, підтримка проксі-серверів ...

Це правда, що існують інші програми, які допомагають нам виконувати такий тип робіт, як httrack або навіть розширення для Firefox як Записки, але нічого подібного до простоти терміналу 😀

Роблячи магію

Мені було цікаво про фільм: Соціальна мережа, як персонаж Марк Цукерберг використовуйте фразу: «Трохи чарівного віджета«, Коли я збирався завантажити фотографії для Facemash 😀, і це правда, Wget дозволяє робити магію з відповідними параметрами.

Давайте розглянемо кілька прикладів, почнемо з простого використання інструменту.

Щоб спуститися на сторінку:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Щоб завантажити весь сайт рекурсивно, включаючи зображення та інші типи даних:

$ wget -r https://blog.desdelinux.net/

І тут настає магія. Як добре пояснено в статті Люди, багато сайтів перевіряють особу браузера, щоб застосувати різні обмеження. С wget ми можемо обійти це наступним чином:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Або ми також можемо зробити паузу між кожною сторінкою, оскільки інакше власник сайту може усвідомити, що ми завантажуємо сайт повністю wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.

  1.   pandev92 - сказав він

    Є чим завантажити лише зображення xd?

    1.    мужність - сказав він

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Що я просто прочитав твої думки ха-ха-ха-ха

      1.    pandev92 - сказав він

        ха-ха оо xd

    2.    KZKG ^ Гаара - сказав він

      людина wget 😉

      1.    pandev92 - сказав він

        Життя занадто коротке, щоб читати його.

        1.    KZKG ^ Гаара - сказав він

          Життя занадто коротке, щоб наповнити мозок інформацією, але все одно спробувати 🙂

          1.    pandev92 - сказав він

            Інформація коштує наполовину, я вважаю за краще наповнювати її жінками, іграми та грошима, якщо це можливо XD.

          2.    мужність - сказав він

            Ви завжди чортово думаєте про жінок. Відтепер ви будете слухати Даді Янкі, Дона Омара та Вісін Ю Яндель, як це робить KZKG ^ Гаара.

            Краще присвятіть себе грошам, що є найголовнішим у цьому житті

            1.    KZKG ^ Гаара - сказав він

              Є речі, які варті набагато більше, ніж гроші ... наприклад, бути в історії, змінювати ситуацію, пам’ятати про те, скільки вам вдалося внести у світ; а не за те, скільки у вас було грошей, коли ви померли 😉

              Намагайся не стати людиною успіху, а людиною мужності, Альбертом Айнсеїном.


          3.    мужність - сказав він

            І чи може жебрак, що живе під мостом, робити це, не маючи ні копійки?

            Ну ні

          4.    мужність - сказав він

            *мати

          5.    pandev92 - сказав він

            Сміливість, у мене була моя регетонна ера, і вже не так, це було багато років тому, я слухаю лише японську музику та класичну музику, і за гроші ... ми працюємо над цим :).

          6.    pandev92 - сказав він

            Мені байдуже, щоб мене пам’ятали, гара, коли я помру, я помру, а інших прикручу, бо я навіть не зможу знати, що вони про мене думають. Про що варто пам’ятати, але ви можете пишатися цим xD.

    3.    hypersayan_x - сказав він

      Для завантаження певного типу файлів можна використовувати фільтри:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      І підказка, якщо ви збираєтеся клонувати дуже велику сторінку, рекомендується робити це через проксі-сервер, такий як tor, оскільки в іншому випадку є певні сторінки, які досягли певної кількості послідовних запитів, блокуючи ваш IP на кілька годин або днів.
      Іншого разу це трапилося зі мною, коли я хотів клонувати вікі.

    4.    Мдір - сказав він

      Розширення, яке я використовую у Firefox, завантажує лише зображення; це називається "Зберегти зображення 0.94"

  2.   Pardo - сказав він

    ех питання хе-хе де зберігаються файли, які я завантажую? Вони хочуть мене вбити, так? Лол

    1.    KZKG ^ Гаара - сказав він

      Файли завантажуються в папку, де ви знаходитесь у терміналі, під час запуску wget 😉

  3.   auroszx - сказав він

    Ага, я не уявляв, що wget може мати таке цікаве використання ... Тепер, щодо використання, про яке згадує Кураж ... Ні слова 😉

  4.   Карлос-Xfce - сказав він

    Хтось знає, чи існує плагін WordPress, який заважає Wget завантажувати ваш блог?

  5.   дарзі - сказав він

    Ну, це чудово для мене !! Дякую

  6.   піолавський - сказав він

    Дуже добре, спробуємо подивитися, як, дякую за внесок.

  7.   ляірмг - сказав він

    Хоча я вважаю себе початківцем, зараз мені це легко, я спробую змішати це з іншими речами і подивитися, що це дає ...

  8.   освальдо - сказав він

    Сподіваюся, ви можете мені допомогти, бо це на понеділок, 3 грудня 2012 року

    Розробляється наступний проект:

    Переміщення веб-сайту шляхом коригування посилань на href.
    1.-Розглядаючи веб-сайт, завантажте повний сайт у локальний каталог за допомогою команди wget. І за допомогою сценарію вашого авторства виконайте такі операції:

    1.1.-Створіть незалежний каталог для кожного типу вмісту: зображення у форматі gif, зображення у форматі jpeg тощо, відео у форматі avi, відео у форматі mpg тощо, аудіо у форматі mp3, звук у форматі wav тощо, веб-вміст (HTML, javascript тощо).

    1.2.-Після того, як кожен із цих вмістів буде переміщений, виконайте коригування посилань на місце розташування кожного ресурсу на сайті.

    1.3.-Активуйте веб-сервер і налаштуйте кореневий каталог, де знаходиться резервна копія веб-сайту, як кореневий каталог локального веб-сервера.

    1.4.-Примітка: команду wget можна використовувати лише з наступними параметрами:
    –Рекурсивний
    –Домени
    –Сторінка-реквізит
    Якщо з якихось причин потрібно більше команд, використовуйте необхідні.

    1.    KZKG ^ Гаара - сказав він

      Щоб завантажити тут, я думаю, що у вас є рішення в пості, тепер ... для переміщення файлів і заміни шляхів, мені довелося зробити щось подібне деякий час тому в своїй роботі, я залишаю вам сценарій, який я використовував: http://paste.desdelinux.net/4670

      Ви модифікуєте його, беручи до уваги тип файлу та шлях, тобто, як складається HTML-код вашого сайту та ін.

      Це не 100% рішення, оскільки ви повинні внести певні домовленості або зміни, але, я гарантую, що це 70 або 80% всієї роботи 😉

      1.    освальдо - сказав він

        Дякую KZKG ^ Гаара мені дуже допоміг

  9.   Заборгованість - сказав він

    Я завжди використовував httrack. Записки для firefox Я збираюся спробувати, але я люблю wget. Дякую!

  10.   Даніель П.З. - сказав він

    Чоловіче, команда не працювала для мене ... ця спрацювала для мене добре:

    wget –random-wait -r -p -e robots = вимкнено -U mozilla http://www.example.com

    1.    Данило - сказав він

      Дуже дякую! Я використовував його з параметрами, запропонованими Даніелем PZ, і у мене не було проблем 🙂

  11.   Рубен Альмагер - сказав він

    Дякую хлопче, я зробив це за допомогою WGet на своєму цуценяті Linux, але я не знав, як це зробити в терміналі. вітання

  12.   пістонудо - сказав він

    де ви зберігаєте сторінки?

    1.    Сокира - сказав він

      Де у вас відкритий термінал. Спочатку у вашій кореневій папці користувача, якщо ви не вказали інший шлях.

  13.   Фернандо - сказав він

    Також завантажити посилання? Отже, якщо є посилання на pdf чи інший документ, ви також його завантажуєте?

  14.   Рауль - сказав він

    Що я можу зробити, щоб завантажити весь свій блог, я спробував, і те, що я не бачу, здається в кодах або заблоковано, незважаючи на те, що завантаження займає багато годин, але можна прочитати лише початкову сторінку, яку я рекомендую завантажити, спасибі raul.

  15.   Лев - сказав він

    привіт, сумніваюся, можна замінити посилання всередині html, щоб пізніше мати можливість переглядати завантажену сторінку так, ніби це оригінал.

    Що трапляється, це те, що я завантажую сторінку, і коли я відкрив її із завантажених файлів, я не взяв .css або .js, а посилання на сторінці ведуть мене на сторінку в Інтернеті.