Изтеглете цял сайт с wget, дори ако има ограничения

Какво е wget?

Нищо по-добро от това Уикипедия за да обясня от какво се състои този инструмент:

GNU Wget е безплатен софтуерен инструмент, който позволява изтеглянето на съдържание от уеб сървъри по лесен начин. Името му произлиза от World Wide Web (w), а от „get“ (на английски get), това означава: вземете от WWW.

В момента той поддържа изтегляния с помощта на HTTP, HTTPS и FTP протоколи.

Сред най-забележителните функции, които предлага Wget има възможност за лесно изтегляне на сложни огледала рекурсивно, конвертиране на връзки за показване на HTML съдържание локално, поддръжка за прокси сървъри ...

De Wget hemos hablado ya bastante aquí en DesdeLinux. Всъщност ya Видяхме как да изтеглите пълен уебсайт с wget, проблемът е, че в днешно време администраторите не винаги позволяват на никого да изтегля целия им уебсайт просто така, не е нещо, което наистина харесва ... и, очевидно разбирам. Сайтът е в Интернет, за да бъде консултиран, читателят получава достъп до интересуващо го съдържание и администраторът на сайта се възползва финансово добре (чрез реклама), като посещения и т.н. Ако читателят изтегли сайта на компютъра си, няма да се налага да влиза в мрежа, за да се консултира с предишна публикация.

За да изтеглите сайт с wget е толкова просто, колкото:

wget -r -k http://www.sitio.com

  • -r : Това означава, че целият уебсайт ще бъде изтеглен.
  • -k : Това показва, че връзките на изтегления сайт ще бъдат преобразувани, за да се виждат на компютри без интернет.

Сега нещата се усложняват, когато администраторът на сайта ни затруднява ...

Какви ограничения могат да съществуват?

Най-често срещаното, което бихме могли да открием, е, че достъпът до сайта е разрешен само ако имате разпознат UserAgent. С други думи, сайтът ще разпознае, че UserAgent, който изтегля толкова много страници, не е от „нормалните“ и следователно ще затвори достъпа.

Също така чрез файла robots.txt можете да посочите този wget (като още куп подобни приложения) Няма да можете да изтеглите, както желае клиентът, добре ... добре, администраторът на сайта го иска, точка 😀

Как да заобиколим тези ограничения?

За първия случай ще създадем UserAgent за wget, можем да направим това с опцията –Потребителски агент, тук ви показвам как:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Сега, за да заобиколите robots.txt, просто изключете този файл, т.е. оставете wget да изтегли сайта и не се интересува какво казва robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Сега ... има и други опции или параметри, които можем да използваме, за да заблудим сайта още повече, например, да посочим, че влизаме в сайта от Google, тук оставям последния ред с всичко:

wget --header = "Приемам: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Не е задължително сайтът да съдържа http: // www в началото, може да бъде директно http: // като например този геометрия Dash

Добре ли е да направите това?

Това зависи ... винаги трябва да го виждате и от двете гледни точки, от администратора на сайта, но и от читателя.

От една страна, като администратор, не бих искал те да вземат HTML копие на моя сайт просто така, той е тук онлайн не за удоволствие, за удоволствие на всички ... нашата цел е да имаме интересно съдържание налични, които можете да научите.

Но, от друга страна ... има потребители, които нямат интернет у дома, които биха искали да имат целия раздел с уроци, който сме поставили тук ... Поставих се на тяхно място (всъщност съм, защото вкъщи нямам интернет) и не е приятно да си на компютъра, да имаш проблем или да искаш да направиш нещо и да не можеш, защото нямаш достъп до мрежата.

Дали е правилно или грешно, зависи от всеки администратор, реалността на всеки ... това, което най-много би ме тревожило, би било потреблението на ресурси, което wget причинява на сървъра, но с добра кеш система би трябвало да е достатъчно за сървъра не страдат.

Интернет

Заключения

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

Ами нищо, надявам се да е полезно ... Поздрави


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.

  1.   eliotime3000 каза той

    Интересен съвет. Не знаех, че можеш да го направиш.

  2.   Емануел каза той

    Изрично е това, което ми се беше случило два пъти и със сигурност беше заради него. Въпреки това, поради съображения за скорост (дом срещу университет) исках да получа достъп до съдържанието по този начин. 😛
    Благодаря за съвета. За разбирането.

  3.   Херардо каза той

    Страхотно за тези от нас, които нямат интернет. Със сигурност добри уроци.

  4.   Киното каза той

    Много интересна статия.
    Въпрос: как може да се направи за https сайтове?
    Къде се изисква удостоверяване чрез потребителско име и парола, а също така голяма част от сайта е написана в java?
    Поздрави и благодарности

  5.   Gelibassium каза той

    и къде се запазват изтеглянията?

    1.    Gelibassium каза той

      Отговарям си: в личната папка. Но сега въпросът е ... можете ли по някакъв начин да му кажете къде да изтегли съдържанието?

      Благодаря

      1.    Daniel каза той

        Предполагам, че първо влизате в папката, в която искате да я запазите и след това стартирате wget

  6.   Cristian каза той

    заявка ... и ще има нещо подобно за "клониране" на база данни

  7.   xphnx каза той

    Имам любопитство, получавате ли пари за поставяне на тези връзки към мрежи с микро ниши?

  8.   Руперто каза той

    Благословен wget ... така изтеглих много порно през моите свински дни xD

  9.   алунадо каза той

    добър съвет. Благодаря

  10.   NULL каза той

    Много добре, хареса ми частта за заобикаляне на ограниченията.

  11.   Франц каза той

    Благодаря за този скъпоценен камък:
    wget –header = »Приемам: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботи = изключен

    wget –header = »Приемам: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e роботи = изключен

    wget –header = »Приемам: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботи = изключен

  12.   Паломарес каза той

    Много интересно.

  13.   Оскар Меза каза той

    wget е един от онези свръхмощни инструменти, с малко терминално програмиране можете да направите свой собствен робот в стил Google, за да започнете да изтегляте съдържанието на страниците и да го съхранявате във вашата собствена база данни и да правите каквото искате по-късно с тези данни.

  14.   Карлос Г. каза той

    Намирам този инструмент за много интересен, никога не съм обръщал внимание на параметрите му, бих искал да знам дали е възможно да изтеглите съдържание от страница «X», на която трябва да влезете, за да влезете, и дали е някъде на този сайт «X» има ли някакво видео, бих ли го изтеглил, дори ако принадлежи на CDN, различен от сайта на «X»?

    Ако това беше възможно, как сайтът предпазва от такъв инструмент?

    Поздрави!

  15.   Ерик занарди каза той

    Лека нощ:

    Пиша ви за консултация. Изтеглих с последната команда на тази статия почти 300 MB информация .. файлове .swf, .js, .html, от страницата http://www.netacad.com/es с моя потребител от малък курс, който проведох в Маракай, Венецуела.

    Въпросът ми е ... Ще бъде ли възможно да видите флаш анимациите?

    Въвеждам „Глобална конфигурация“ и опциите, които не показват нито една, ми позволяват да конфигурирам.

    Оценявам всеки отговор.

    Благодаря предварително!

    1.    ADX каза той

      Имам същата подробност, .swf се изтегля наполовина, ако успеете да я пропуснете, споделете информация с мен. Това, което направих за последно, беше да използвам паяк, за да получа всички връзки на netacad, но въпреки това .swf не завършва изтеглянето, както би трябвало

  16.   алехандро.ернандес каза той

    много добре !!! Благодаря.

  17.   Ana каза той

    Здравейте, благодаря за вашето tuto. Опитвам се да изтегля блог, в който съм поканен, с парола, за да мога да го чета от вкъщи без връзка. Използвам тази програма и очевидно имам паролата на блога (wordpress), но не знам как да продължа. Бихте ли ми показали?
    Благодаря предварително и най-добри пожелания!

  18.   Фран каза той

    какъв страхотен пост !!!

  19.   Santiago каза той

    отлично ми е служило много

  20.   Фран каза той

    Влязъл съм в уебсайт с вградени vimeo видеоклипове и няма начин те да бъдат изтеглени .. изглежда, че vimeo ги е защитил. Някакви идеи??