Загрузите весь сайт с помощью wget, даже если есть ограничения

4 минут

Что такое wget?

Нет ничего лучше, чем Википедия. чтобы объяснить, из чего состоит этот инструмент:

GNU Wget это бесплатный программный инструмент, который позволяет простым способом загружать контент с веб-серверов. Его название происходит от World Wide Web (w), а от «get» (на английском языке get) это означает: получить из WWW.

В настоящее время он поддерживает загрузки с использованием протоколов HTTP, HTTPS и FTP.

Среди самых выдающихся функций, которые он предлагает Wget есть возможность простой загрузки сложных зеркал рекурсивно, преобразование ссылок для локального отображения HTML-контента, поддержка прокси ...

De Wget Мы здесь уже достаточно поговорили DesdeLinux. По факту ya Мы видели, как загрузить полный веб-сайт с помощью wget, проблема в том, что в настоящее время администраторы не всегда позволяют кому-либо загружать весь свой веб-сайт просто так, это не то, что им действительно нравится ... и, очевидно, я понимаю. Сайт находится в Интернете для просмотра, читатель получает доступ к интересующему содержанию, а администратор сайта получает финансовую выгоду (за счет рекламы), например, посещения и т. Д. Если читатель загрузит сайт на свой компьютер, ему не придется выходить в Интернет, чтобы просмотреть предыдущую публикацию.

Скачать сайт с помощью wget очень просто:

wget -r -k http://www.sitio.com

-r : Это означает, что будет загружен весь веб-сайт.
-k : Это означает, что ссылки загруженного сайта будут преобразованы для просмотра на компьютерах без Интернета.

Теперь все усложняется, когда администратор сайта нам мешает ...

Какие могут быть ограничения?

Чаще всего мы можем обнаружить, что доступ к сайту разрешен только в том случае, если у вас есть признанный агент UserAgent. Другими словами, сайт распознает, что UserAgent, который загружает такое количество страниц, не является одним из «обычных», и поэтому закроет доступ.

Также через файл robots.txt вы можете указать, что wget (нравится еще куча похожих приложений) Вы не сможете скачать по желанию клиента, ну ... ну администратор сайта хочет, точка 😀

Как обойти эти ограничения?

В первом случае мы установим UserAgent для wget, мы можем сделать это с помощью опции –Пользователь-агент, здесь я покажу вам, как:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Теперь, чтобы обойти robots.txt, просто исключите этот файл, то есть позвольте wget загрузить сайт и не обращайте внимания на то, что говорит robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Теперь ... есть другие варианты или параметры, которые мы можем использовать, чтобы еще больше обмануть сайт, например, указать, что мы заходим на сайт из Google, здесь я оставляю последнюю строку со всем:

wget --header = "Accept: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Необязательно, чтобы сайт содержал http: // www в начале, это может быть непосредственно http: //, например, этот Геометрия тире

Это нормально?

Это зависит ... вы всегда должны видеть это с обеих точек зрения, с точки зрения администратора сайта, но также и с точки зрения читателя.

С одной стороны, как администратор, я бы не хотел, чтобы они брали HTML-копию моего сайта вот так, она здесь в сети не для удовольствия, для всеобщего удовольствия ... наша цель - иметь доступный интересный контент вам, что вы можете узнать.

Но, с другой стороны ... есть пользователи, у которых дома нет интернета, которые хотели бы иметь весь раздел Учебников, который мы разместили здесь ... Я ставлю себя на их место (на самом деле я, потому что дома у меня нет интернета) и неприятно находиться за компьютером, имея проблемы или желая что-то сделать, но не имея возможности, потому что у вас нет доступа к сети сетей.

Правильно это или нет - дело каждого администратора, реальность каждого ... меня больше всего беспокоит потребление ресурсов, которое wget вызывает на сервере, но с хорошей системой кеширования этого должно быть достаточно, чтобы сервер не страдать.

Выводы

Прошу вас не начинать скачивать сейчас. DesdeLinux ХА ХА ХА!! Например, моя девушка попросила меня скачать некоторые читы для Geometry Dash (что-то вроде читов для Geometry Dash), я не буду скачивать весь сайт, а просто открою нужную страницу и сохраню ее в PDF или HTML или что-то в этом роде, вот это что бы я вам порекомендовал.

Если у вас есть учебник DesdeLinux то, что вы хотите сохранить, сохраните в закладках в формате HTML или PDF... но для одного или двух уроков не обязательно генерировать чрезмерный трафик и потребление на сервере 😉

Ну ничего, надеюсь пригодится ... привет

Оставьте свой комментарий Отменить ответ

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

комментарий *

Имя*

Электронная почта*

Принять условия конфиденциальности*

Ответственный за данные: Мигель Анхель Гатон
Назначение данных: контроль спама, управление комментариями.
Легитимация: ваше согласие
Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

Я хочу получать рассылку новостей

элиотайм3000 сказал
тому назад 10 лет

Интересный совет. Я не знал, что ты можешь это сделать.

Ответить eliotime3000
Эммануэль сказал
тому назад 10 лет

Это точно то, что случилось со мной дважды, и, безусловно, из-за этого. Хотя я хотел получить доступ к контенту таким образом из соображений скорости (дома или в университете). 😛
Спасибо за совет. С уважением.

Ответ Эммануэлю
Херардо сказал
тому назад 10 лет

Отлично подходит для тех из нас, у кого нет Интернета. Конечно, хорошие уроки.

Ответить Герардо
Quinotto сказал
тому назад 10 лет

Очень интересная статья.
Вопрос: как это сделать для https сайтов?
Где требуется аутентификация с помощью имени пользователя и пароля, а также большая часть сайта написана на java?
Привет и спасибо

Ответ Quinotto
Гелибалий сказал
тому назад 10 лет

а где сохраняются загрузки?

Ответить Гелибасио
1. Гелибалий сказал
  тому назад 10 лет
  
  Отвечаю себе: в личной папке. Но теперь вопрос в том ... можно как-нибудь сказать ему, где скачать контент?
  
  graciass
  
  Ответить Гелибасио
  1. Дэниел сказал
    тому назад 10 лет
    
    Я думаю, вы сначала получаете доступ к папке, в которой хотите ее сохранить, а затем запускаете wget
    
    Ответ Даниэлю
Cristian сказал
тому назад 10 лет

запрос ... и будет что-то вроде этого, чтобы "клонировать" базу данных

Ответ Кристиану
хфнкс сказал
тому назад 10 лет

У меня есть любопытство, получаете ли вы деньги за размещение этих ссылок на сайты в микро-нишах?

Ответить xphnx
Руперто сказал
тому назад 10 лет

Блажен Wget ... вот как я скачал много порно в мое время свиньи XD

Ответ Руперто
Алунадо сказал
тому назад 10 лет

хороший совет. благодаря

Ответить Алунадо
NULL, сказал
тому назад 10 лет

Очень хорошо, мне понравилась часть об обходе ограничений.

Ответить на NULL
Франц сказал
тому назад 10 лет

Спасибо за этот камень:
wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - р https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботы = выкл.

wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - р https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e роботы = выкл.

wget –header = »Accept: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - р https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботы = выкл.

Ответить Францу
Паломарес сказал
тому назад 10 лет

Очень интересно.

Ответ Паломаресу
Оскар Меза сказал
тому назад 10 лет

wget - один из тех сверхмощных инструментов, с небольшим программированием терминала вы можете создать своего собственного робота в стиле Google, чтобы начать загрузку содержимого страниц и сохранить его в своей собственной базе данных, а потом делать с этими данными все, что захотите.

Ответить Оскару Мезе
Карлос Дж. сказал
тому назад 9 лет

Мне этот инструмент очень интересен, я никогда не обращал внимания на его параметры, я хотел бы знать, можно ли загружать контент со страницы «X», на которую вам нужно войти, чтобы войти, и если это где-то на этом сайте «X» есть ли какое-нибудь видео, могу ли я его также загрузить, даже если оно принадлежит другому CDN, чем сайт «X»?

Если бы это было возможно, как сайт защитить от такого инструмента?

Привет!

Ответ Carlos G
Эрик Дзанарди сказал
тому назад 9 лет

Доброй ночи:

Пишу Вам на консультацию. Я скачал последней командой этой статьи почти 300 МБ информации .. файлов .swf, .js, .html со страницы http://www.netacad.com/es с моим пользователем из небольшого курса, который я прошел в Маракае, Венесуэла.

У меня вопрос ... Можно ли будет увидеть флеш-анимацию?

Я вхожу в «Глобальную конфигурацию», и параметры, которые не отображаются, позволяют мне настраивать.

Я ценю любой ответ.

Спасибо заранее!

Ответ Эрику Занарди
1. ADX сказал
  тому назад 9 лет
  
  У меня такая же деталь, .swf загружаются на полпути, если вам удастся его пропустить, поделитесь информацией В прошлый раз я попытался использовать паука, чтобы получить все ссылки на netacad, но .swf все равно не загружается должным образом.
  
  Ответить на ADX
Алехандро Эрнандес сказал
тому назад 8 лет

очень хорошо !!! Благодарю.

Ответить alejandro.hernandez
Анна сказал
тому назад 8 лет

Привет, спасибо за твой урок. Я пытаюсь загрузить блог, в который меня пригласили с паролем, чтобы я мог читать его из дома без подключения к Интернету. Я использую эту программу, и, очевидно, у меня есть пароль к блогу (wordpress), но я не знаю, как действовать дальше. Не могли бы вы показать мне?
Заранее спасибо и с наилучшими пожеланиями!

Ответить Ане
Фрэн сказал
тому назад 7 лет

какой отличный пост !!!

Ответить Фрэн
Сантьяго сказал
тому назад 7 лет

отлично, он мне очень пригодился

Ответ Сантьяго
Фрэн сказал
тому назад 7 лет

Я вошел на веб-сайт со встроенными видео vimeo, и нет возможности загрузить их ... похоже, что vimeo их защищает. Есть идеи??

Ответить Фрэн