Изтеглете цял сайт с wget, дори ако има ограничения

4 Minutos

Какво е wget?

Нищо по-добро от това Уикипедия за да обясня от какво се състои този инструмент:

GNU Wget е безплатен софтуерен инструмент, който позволява изтеглянето на съдържание от уеб сървъри по лесен начин. Името му произлиза от World Wide Web (w), а от „get“ (на английски get), това означава: вземете от WWW.

В момента той поддържа изтегляния с помощта на HTTP, HTTPS и FTP протоколи.

Сред най-забележителните функции, които предлага Wget има възможност за лесно изтегляне на сложни огледала рекурсивно, конвертиране на връзки за показване на HTML съдържание локално, поддръжка за прокси сървъри ...

De Wget hemos hablado ya bastante aquí en DesdeLinux. Всъщност ya Видяхме как да изтеглите пълен уебсайт с wget, проблемът е, че в днешно време администраторите не винаги позволяват на никого да изтегля целия им уебсайт просто така, не е нещо, което наистина харесва ... и, очевидно разбирам. Сайтът е в Интернет, за да бъде консултиран, читателят получава достъп до интересуващо го съдържание и администраторът на сайта се възползва финансово добре (чрез реклама), като посещения и т.н. Ако читателят изтегли сайта на компютъра си, няма да се налага да влиза в мрежа, за да се консултира с предишна публикация.

За да изтеглите сайт с wget е толкова просто, колкото:

wget -r -k http://www.sitio.com

-r : Това означава, че целият уебсайт ще бъде изтеглен.
-k : Това показва, че връзките на изтегления сайт ще бъдат преобразувани, за да се виждат на компютри без интернет.

Сега нещата се усложняват, когато администраторът на сайта ни затруднява ...

Какви ограничения могат да съществуват?

Най-често срещаното, което бихме могли да открием, е, че достъпът до сайта е разрешен само ако имате разпознат UserAgent. С други думи, сайтът ще разпознае, че UserAgent, който изтегля толкова много страници, не е от „нормалните“ и следователно ще затвори достъпа.

Също така чрез файла robots.txt можете да посочите този wget (като още куп подобни приложения) Няма да можете да изтеглите, както желае клиентът, добре ... добре, администраторът на сайта го иска, точка 😀

Как да заобиколим тези ограничения?

За първия случай ще създадем UserAgent за wget, можем да направим това с опцията –Потребителски агент, тук ви показвам как:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Сега, за да заобиколите robots.txt, просто изключете този файл, т.е. оставете wget да изтегли сайта и не се интересува какво казва robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Сега ... има и други опции или параметри, които можем да използваме, за да заблудим сайта още повече, например, да посочим, че влизаме в сайта от Google, тук оставям последния ред с всичко:

wget --header = "Приемам: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Не е задължително сайтът да съдържа http: // www в началото, може да бъде директно http: // като например този геометрия Dash

Добре ли е да направите това?

Това зависи ... винаги трябва да го виждате и от двете гледни точки, от администратора на сайта, но и от читателя.

От една страна, като администратор, не бих искал те да вземат HTML копие на моя сайт просто така, той е тук онлайн не за удоволствие, за удоволствие на всички ... нашата цел е да имаме интересно съдържание налични, които можете да научите.

Но, от друга страна ... има потребители, които нямат интернет у дома, които биха искали да имат целия раздел с уроци, който сме поставили тук ... Поставих се на тяхно място (всъщност съм, защото вкъщи нямам интернет) и не е приятно да си на компютъра, да имаш проблем или да искаш да направиш нещо и да не можеш, защото нямаш достъп до мрежата.

Дали е правилно или грешно, зависи от всеки администратор, реалността на всеки ... това, което най-много би ме тревожило, би било потреблението на ресурси, което wget причинява на сървъра, но с добра кеш система би трябвало да е достатъчно за сървъра не страдат.

Заключения

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

Ами нищо, надявам се да е полезно ... Поздрави

Оставете вашия коментар Отказ на отговора

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

коментар *

име*

Електронната поща*

Приемам условия за поверителност*

Отговорен за данните: Мигел Анхел Гатон
Предназначение на данните: Контрол на СПАМ, управление на коментари.
Легитимация: Вашето съгласие
Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.

Искам да получа бюлетина

eliotime3000 каза той
hace 10 година

Интересен съвет. Не знаех, че можеш да го направиш.

Отговорете на eliotime3000
Емануел каза той
hace 10 година

Изрично е това, което ми се беше случило два пъти и със сигурност беше заради него. Въпреки това, поради съображения за скорост (дом срещу университет) исках да получа достъп до съдържанието по този начин. 😛
Благодаря за съвета. За разбирането.

Отговорете на Емануел
Херардо каза той
hace 10 година

Страхотно за тези от нас, които нямат интернет. Със сигурност добри уроци.

Отговорете на Херардо
Киното каза той
hace 10 година

Много интересна статия.
Въпрос: как може да се направи за https сайтове?
Къде се изисква удостоверяване чрез потребителско име и парола, а също така голяма част от сайта е написана в java?
Поздрави и благодарности

Отговорете на Quinotto
Gelibassium каза той
hace 10 година

и къде се запазват изтеглянията?

Отговорете на Gelibasio
1. Gelibassium каза той
  hace 10 година
  
  Отговарям си: в личната папка. Но сега въпросът е ... можете ли по някакъв начин да му кажете къде да изтегли съдържанието?
  
  Благодаря
  
  Отговорете на Gelibasio
  1. Daniel каза той
    hace 10 година
    
    Предполагам, че първо влизате в папката, в която искате да я запазите и след това стартирате wget
    
    Отговорете на Даниел
Cristian каза той
hace 10 година

заявка ... и ще има нещо подобно за "клониране" на база данни

Отговорете на Кристиан
xphnx каза той
hace 10 година

Имам любопитство, получавате ли пари за поставяне на тези връзки към мрежи с микро ниши?

Отговорете на xphnx
Руперто каза той
hace 10 година

Благословен wget ... така изтеглих много порно през моите свински дни xD

Отговорете на Ruperto
алунадо каза той
hace 10 година

добър съвет. Благодаря

Отговорете на алунадо
NULL каза той
hace 10 година

Много добре, хареса ми частта за заобикаляне на ограниченията.

Отговорете на NULL
Франц каза той
hace 10 година

Благодаря за този скъпоценен камък:
wget –header = »Приемам: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботи = изключен

wget –header = »Приемам: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e роботи = изключен

wget –header = »Приемам: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботи = изключен

Отговорете на Франц
Паломарес каза той
hace 10 година

Много интересно.

Отговорете на Palomares
Оскар Меза каза той
hace 10 година

wget е един от онези свръхмощни инструменти, с малко терминално програмиране можете да направите свой собствен робот в стил Google, за да започнете да изтегляте съдържанието на страниците и да го съхранявате във вашата собствена база данни и да правите каквото искате по-късно с тези данни.

Отговор на Оскар Меза
Карлос Г. каза той
hace 9 година

Намирам този инструмент за много интересен, никога не съм обръщал внимание на параметрите му, бих искал да знам дали е възможно да изтеглите съдържание от страница «X», на която трябва да влезете, за да влезете, и дали е някъде на този сайт «X» има ли някакво видео, бих ли го изтеглил, дори ако принадлежи на CDN, различен от сайта на «X»?

Ако това беше възможно, как сайтът предпазва от такъв инструмент?

Поздрави!

Отговор на Carlos G
Ерик занарди каза той
hace 9 година

Лека нощ:

Пиша ви за консултация. Изтеглих с последната команда на тази статия почти 300 MB информация .. файлове .swf, .js, .html, от страницата http://www.netacad.com/es с моя потребител от малък курс, който проведох в Маракай, Венецуела.

Въпросът ми е ... Ще бъде ли възможно да видите флаш анимациите?

Въвеждам „Глобална конфигурация“ и опциите, които не показват нито една, ми позволяват да конфигурирам.

Оценявам всеки отговор.

Благодаря предварително!

Отговорете на Erick Zanardi
1. ADX каза той
  hace 9 година
  
  Имам същата подробност, .swf се изтегля наполовина, ако успеете да я пропуснете, споделете информация с мен. Това, което направих за последно, беше да използвам паяк, за да получа всички връзки на netacad, но въпреки това .swf не завършва изтеглянето, както би трябвало
  
  Отговорете на ADX
алехандро.ернандес каза той
hace 8 година

много добре !!! Благодаря.

Отговорете на alejandro.hernandez
Ana каза той
hace 8 година

Здравейте, благодаря за вашето tuto. Опитвам се да изтегля блог, в който съм поканен, с парола, за да мога да го чета от вкъщи без връзка. Използвам тази програма и очевидно имам паролата на блога (wordpress), но не знам как да продължа. Бихте ли ми показали?
Благодаря предварително и най-добри пожелания!

Отговорете на Ана
Фран каза той
hace 7 година

какъв страхотен пост !!!

Отговорете на Фран
Santiago каза той
hace 7 година

отлично ми е служило много

Отговорете на Сантяго
Фран каза той
hace 7 година

Влязъл съм в уебсайт с вградени vimeo видеоклипове и няма начин те да бъдат изтеглени .. изглежда, че vimeo ги е защитил. Някакви идеи??

Отговорете на Фран