Загрузите весь сайт с помощью wget, даже если есть ограничения

Что такое wget?

Нет ничего лучше, чем Википедия. чтобы объяснить, из чего состоит этот инструмент:

GNU Wget это бесплатный программный инструмент, который позволяет простым способом загружать контент с веб-серверов. Его название происходит от World Wide Web (w), а от «get» (на английском языке get) это означает: получить из WWW.

В настоящее время он поддерживает загрузки с использованием протоколов HTTP, HTTPS и FTP.

Среди самых выдающихся функций, которые он предлагает Wget есть возможность простой загрузки сложных зеркал рекурсивно, преобразование ссылок для локального отображения HTML-контента, поддержка прокси ...

De Wget Мы здесь уже достаточно поговорили DesdeLinux. По факту ya Мы видели, как загрузить полный веб-сайт с помощью wget, проблема в том, что в настоящее время администраторы не всегда позволяют кому-либо загружать весь свой веб-сайт просто так, это не то, что им действительно нравится ... и, очевидно, я понимаю. Сайт находится в Интернете для просмотра, читатель получает доступ к интересующему содержанию, а администратор сайта получает финансовую выгоду (за счет рекламы), например, посещения и т. Д. Если читатель загрузит сайт на свой компьютер, ему не придется выходить в Интернет, чтобы просмотреть предыдущую публикацию.

Скачать сайт с помощью wget очень просто:

wget -r -k http://www.sitio.com

  • -r : Это означает, что будет загружен весь веб-сайт.
  • -k : Это означает, что ссылки загруженного сайта будут преобразованы для просмотра на компьютерах без Интернета.

Теперь все усложняется, когда администратор сайта нам мешает ...

Какие могут быть ограничения?

Чаще всего мы можем обнаружить, что доступ к сайту разрешен только в том случае, если у вас есть признанный агент UserAgent. Другими словами, сайт распознает, что UserAgent, который загружает такое количество страниц, не является одним из «обычных», и поэтому закроет доступ.

Также через файл robots.txt вы можете указать, что wget (нравится еще куча похожих приложений) Вы не сможете скачать по желанию клиента, ну ... ну администратор сайта хочет, точка 😀

Как обойти эти ограничения?

В первом случае мы установим UserAgent для wget, мы можем сделать это с помощью опции –Пользователь-агент, здесь я покажу вам, как:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Теперь, чтобы обойти robots.txt, просто исключите этот файл, то есть позвольте wget загрузить сайт и не обращайте внимания на то, что говорит robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Теперь ... есть другие варианты или параметры, которые мы можем использовать, чтобы еще больше обмануть сайт, например, указать, что мы заходим на сайт из Google, здесь я оставляю последнюю строку со всем:

wget --header = "Accept: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Необязательно, чтобы сайт содержал http: // www в начале, это может быть непосредственно http: //, например, этот Геометрия тире

Это нормально?

Это зависит ... вы всегда должны видеть это с обеих точек зрения, с точки зрения администратора сайта, но также и с точки зрения читателя.

С одной стороны, как администратор, я бы не хотел, чтобы они брали HTML-копию моего сайта вот так, она здесь в сети не для удовольствия, для всеобщего удовольствия ... наша цель - иметь доступный интересный контент вам, что вы можете узнать.

Но, с другой стороны ... есть пользователи, у которых дома нет интернета, которые хотели бы иметь весь раздел Учебников, который мы разместили здесь ... Я ставлю себя на их место (на самом деле я, потому что дома у меня нет интернета) и неприятно находиться за компьютером, имея проблемы или желая что-то сделать, но не имея возможности, потому что у вас нет доступа к сети сетей.

Правильно это или нет - дело каждого администратора, реальность каждого ... меня больше всего беспокоит потребление ресурсов, которое wget вызывает на сервере, но с хорошей системой кеширования этого должно быть достаточно, чтобы сервер не страдать.

интернет

Выводы

Прошу вас не начинать скачивать сейчас. DesdeLinux ХА ХА ХА!! Например, моя девушка попросила меня скачать некоторые читы для Geometry Dash (что-то вроде читов для Geometry Dash), я не буду скачивать весь сайт, а просто открою нужную страницу и сохраню ее в PDF или HTML или что-то в этом роде, вот это что бы я вам порекомендовал.

Если у вас есть учебник DesdeLinux то, что вы хотите сохранить, сохраните в закладках в формате HTML или PDF... но для одного или двух уроков не обязательно генерировать чрезмерный трафик и потребление на сервере 😉

Ну ничего, надеюсь пригодится ... привет


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: Мигель Анхель Гатон
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

  1.   элиотайм3000 сказал

    Интересный совет. Я не знал, что ты можешь это сделать.

  2.   Эммануэль сказал

    Это точно то, что случилось со мной дважды, и, безусловно, из-за этого. Хотя я хотел получить доступ к контенту таким образом из соображений скорости (дома или в университете). 😛
    Спасибо за совет. С уважением.

  3.   Херардо сказал

    Отлично подходит для тех из нас, у кого нет Интернета. Конечно, хорошие уроки.

  4.   Quinotto сказал

    Очень интересная статья.
    Вопрос: как это сделать для https сайтов?
    Где требуется аутентификация с помощью имени пользователя и пароля, а также большая часть сайта написана на java?
    Привет и спасибо

  5.   Гелибалий сказал

    а где сохраняются загрузки?

    1.    Гелибалий сказал

      Отвечаю себе: в личной папке. Но теперь вопрос в том ... можно как-нибудь сказать ему, где скачать контент?

      graciass

      1.    Дэниел сказал

        Я думаю, вы сначала получаете доступ к папке, в которой хотите ее сохранить, а затем запускаете wget

  6.   Cristian сказал

    запрос ... и будет что-то вроде этого, чтобы "клонировать" базу данных

  7.   хфнкс сказал

    У меня есть любопытство, получаете ли вы деньги за размещение этих ссылок на сайты в микро-нишах?

  8.   Руперто сказал

    Блажен Wget ... вот как я скачал много порно в мое время свиньи XD

  9.   Алунадо сказал

    хороший совет. благодаря

  10.   NULL, сказал

    Очень хорошо, мне понравилась часть об обходе ограничений.

  11.   Франц сказал

    Спасибо за этот камень:
    wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - р https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботы = выкл.

    wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - р https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e роботы = выкл.

    wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - р https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботы = выкл.

  12.   Паломарес сказал

    Очень интересно.

  13.   Оскар Меза сказал

    wget - один из тех сверхмощных инструментов, с небольшим программированием терминала вы можете создать своего собственного робота в стиле Google, чтобы начать загрузку содержимого страниц и сохранить его в своей собственной базе данных, а потом делать с этими данными все, что захотите.

  14.   Карлос Дж. сказал

    Мне этот инструмент очень интересен, я никогда не обращал внимания на его параметры, я хотел бы знать, можно ли загружать контент со страницы «X», на которую вам нужно войти, чтобы войти, и если это где-то на этом сайте «X» есть ли какое-нибудь видео, могу ли я его также загрузить, даже если оно принадлежит другому CDN, чем сайт «X»?

    Если бы это было возможно, как сайт защитить от такого инструмента?

    Привет!

  15.   Эрик Дзанарди сказал

    Доброй ночи:

    Пишу Вам на консультацию. Я скачал последней командой этой статьи почти 300 МБ информации .. файлов .swf, .js, .html со страницы http://www.netacad.com/es с моим пользователем из небольшого курса, который я прошел в Маракае, Венесуэла.

    У меня вопрос ... Можно ли будет увидеть флеш-анимацию?

    Я вхожу в «Глобальную конфигурацию», и параметры, которые не отображаются, позволяют мне настраивать.

    Я ценю любой ответ.

    Спасибо заранее!

    1.    ADX сказал

      У меня такая же деталь, .swf загружаются на полпути, если вам удастся его пропустить, поделитесь информацией В прошлый раз я попытался использовать паука, чтобы получить все ссылки на netacad, но .swf все равно не загружается должным образом.

  16.   Алехандро Эрнандес сказал

    очень хорошо !!! Благодарю.

  17.   Анна сказал

    Привет, спасибо за твой урок. Я пытаюсь загрузить блог, в который меня пригласили с паролем, чтобы я мог читать его из дома без подключения к Интернету. Я использую эту программу, и, очевидно, у меня есть пароль к блогу (wordpress), но я не знаю, как действовать дальше. Не могли бы вы показать мне?
    Заранее спасибо и с наилучшими пожеланиями!

  18.   Фрэн сказал

    какой отличный пост !!!

  19.   Сантьяго сказал

    отлично, он мне очень пригодился

  20.   Фрэн сказал

    Я вошел на веб-сайт со встроенными видео vimeo, и нет возможности загрузить их ... похоже, что vimeo их защищает. Есть идеи??