Какво е wget?
Нищо по-добро от това Уикипедия за да обясня от какво се състои този инструмент:
GNU Wget е безплатен софтуерен инструмент, който позволява изтеглянето на съдържание от уеб сървъри по лесен начин. Името му произлиза от World Wide Web (w), а от „get“ (на английски get), това означава: вземете от WWW.
В момента той поддържа изтегляния с помощта на HTTP, HTTPS и FTP протоколи.
Сред най-забележителните функции, които предлага Wget има възможност за лесно изтегляне на сложни огледала рекурсивно, конвертиране на връзки за показване на HTML съдържание локално, поддръжка за прокси сървъри ...
De Wget hemos hablado ya bastante aquí en DesdeLinux. Всъщност ya Видяхме как да изтеглите пълен уебсайт с wget, проблемът е, че в днешно време администраторите не винаги позволяват на никого да изтегля целия им уебсайт просто така, не е нещо, което наистина харесва ... и, очевидно разбирам. Сайтът е в Интернет, за да бъде консултиран, читателят получава достъп до интересуващо го съдържание и администраторът на сайта се възползва финансово добре (чрез реклама), като посещения и т.н. Ако читателят изтегли сайта на компютъра си, няма да се налага да влиза в мрежа, за да се консултира с предишна публикация.
За да изтеглите сайт с wget е толкова просто, колкото:
wget -r -k http://www.sitio.com
- -r : Това означава, че целият уебсайт ще бъде изтеглен.
- -k : Това показва, че връзките на изтегления сайт ще бъдат преобразувани, за да се виждат на компютри без интернет.
Сега нещата се усложняват, когато администраторът на сайта ни затруднява ...
Какви ограничения могат да съществуват?
Най-често срещаното, което бихме могли да открием, е, че достъпът до сайта е разрешен само ако имате разпознат UserAgent. С други думи, сайтът ще разпознае, че UserAgent, който изтегля толкова много страници, не е от „нормалните“ и следователно ще затвори достъпа.
Също така чрез файла robots.txt можете да посочите този wget (като още куп подобни приложения) Няма да можете да изтеглите, както желае клиентът, добре ... добре, администраторът на сайта го иска, точка 😀
Как да заобиколим тези ограничения?
За първия случай ще създадем UserAgent за wget, можем да направим това с опцията –Потребителски агент, тук ви показвам как:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Сега, за да заобиколите robots.txt, просто изключете този файл, т.е. оставете wget да изтегли сайта и не се интересува какво казва robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off
Сега ... има и други опции или параметри, които можем да използваме, за да заблудим сайта още повече, например, да посочим, че влизаме в сайта от Google, тук оставям последния ред с всичко:
wget --header = "Приемам: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k
Добре ли е да направите това?
Това зависи ... винаги трябва да го виждате и от двете гледни точки, от администратора на сайта, но и от читателя.
От една страна, като администратор, не бих искал те да вземат HTML копие на моя сайт просто така, той е тук онлайн не за удоволствие, за удоволствие на всички ... нашата цел е да имаме интересно съдържание налични, които можете да научите.
Но, от друга страна ... има потребители, които нямат интернет у дома, които биха искали да имат целия раздел с уроци, който сме поставили тук ... Поставих се на тяхно място (всъщност съм, защото вкъщи нямам интернет) и не е приятно да си на компютъра, да имаш проблем или да искаш да направиш нещо и да не можеш, защото нямаш достъп до мрежата.
Дали е правилно или грешно, зависи от всеки администратор, реалността на всеки ... това, което най-много би ме тревожило, би било потреблението на ресурси, което wget причинява на сървъра, но с добра кеш система би трябвало да е достатъчно за сървъра не страдат.
Заключения
Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.
Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉
Ами нищо, надявам се да е полезно ... Поздрави
Интересен съвет. Не знаех, че можеш да го направиш.
Изрично е това, което ми се беше случило два пъти и със сигурност беше заради него. Въпреки това, поради съображения за скорост (дом срещу университет) исках да получа достъп до съдържанието по този начин. 😛
Благодаря за съвета. За разбирането.
Страхотно за тези от нас, които нямат интернет. Със сигурност добри уроци.
Много интересна статия.
Въпрос: как може да се направи за https сайтове?
Къде се изисква удостоверяване чрез потребителско име и парола, а също така голяма част от сайта е написана в java?
Поздрави и благодарности
и къде се запазват изтеглянията?
Отговарям си: в личната папка. Но сега въпросът е ... можете ли по някакъв начин да му кажете къде да изтегли съдържанието?
Благодаря
Предполагам, че първо влизате в папката, в която искате да я запазите и след това стартирате wget
заявка ... и ще има нещо подобно за "клониране" на база данни
Имам любопитство, получавате ли пари за поставяне на тези връзки към мрежи с микро ниши?
Благословен wget ... така изтеглих много порно през моите свински дни xD
добър съвет. Благодаря
Много добре, хареса ми частта за заобикаляне на ограниченията.
Благодаря за този скъпоценен камък:
wget –header = »Приемам: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботи = изключен
wget –header = »Приемам: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e роботи = изключен
wget –header = »Приемам: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботи = изключен
Много интересно.
wget е един от онези свръхмощни инструменти, с малко терминално програмиране можете да направите свой собствен робот в стил Google, за да започнете да изтегляте съдържанието на страниците и да го съхранявате във вашата собствена база данни и да правите каквото искате по-късно с тези данни.
Намирам този инструмент за много интересен, никога не съм обръщал внимание на параметрите му, бих искал да знам дали е възможно да изтеглите съдържание от страница «X», на която трябва да влезете, за да влезете, и дали е някъде на този сайт «X» има ли някакво видео, бих ли го изтеглил, дори ако принадлежи на CDN, различен от сайта на «X»?
Ако това беше възможно, как сайтът предпазва от такъв инструмент?
Поздрави!
Лека нощ:
Пиша ви за консултация. Изтеглих с последната команда на тази статия почти 300 MB информация .. файлове .swf, .js, .html, от страницата http://www.netacad.com/es с моя потребител от малък курс, който проведох в Маракай, Венецуела.
Въпросът ми е ... Ще бъде ли възможно да видите флаш анимациите?
Въвеждам „Глобална конфигурация“ и опциите, които не показват нито една, ми позволяват да конфигурирам.
Оценявам всеки отговор.
Благодаря предварително!
Имам същата подробност, .swf се изтегля наполовина, ако успеете да я пропуснете, споделете информация с мен. Това, което направих за последно, беше да използвам паяк, за да получа всички връзки на netacad, но въпреки това .swf не завършва изтеглянето, както би трябвало
много добре !!! Благодаря.
Здравейте, благодаря за вашето tuto. Опитвам се да изтегля блог, в който съм поканен, с парола, за да мога да го чета от вкъщи без връзка. Използвам тази програма и очевидно имам паролата на блога (wordpress), но не знам как да продължа. Бихте ли ми показали?
Благодаря предварително и най-добри пожелания!
какъв страхотен пост !!!
отлично ми е служило много
Влязъл съм в уебсайт с вградени vimeo видеоклипове и няма начин те да бъдат изтеглени .. изглежда, че vimeo ги е защитил. Някакви идеи??