Преземете цела страница со wget дури и ако има ограничувања

Што е wget?

Ништо подобро од Википедија да објасни од што се состои оваа алатка:

GNU Wget е алатка за слободен софтвер што овозможува преземање на содржина од веб-сервери на едноставен начин. Неговото име потекнува од Светска мрежа (w), а од „get“ (на англиски јазик get), ова значи: добиј од WWW.

Во моментов поддржува преземања со помош на протоколите HTTP, HTTPS и FTP.

Меѓу најистакнатите карактеристики што ги нуди wget постои можност за лесно преземање на комплексни огледала рекурзивно, конверзија на врски за прикажување на HTML содржина локално, поддршка за прокси ...

De wget ние веќе зборувавме доволно тука во DesdeLinux. Всушност ya Видовме како да преземеме комплетна веб-страница со wget, проблемот е што во денешно време администраторите не дозволуваат некому да ја презема целата своја веб-страница токму така, тоа не е нешто што навистина им се допаѓа ... и, очигледно, разбирам. Веб-страницата е таму на Интернет за да се консултира со неа, читателот пристапува до содржина од интерес и администраторот на страницата има добра корист економски (со рекламирање), како и при посети, итн. Ако читателот ја преземе страницата на неговиот компјутер, тој нема да мора да оди на Интернет за да се консултира со претходна објава.

Да преземете страница со wget е едноставно како:

wget -r -k http://www.sitio.com

  • -r : Ова покажува дека целата веб-страница ќе се преземе.
  • -k : Ова покажува дека врските на преземената страница ќе се конвертираат за да бидат видени на компјутери без интернет.

Сега, работите се комплицираат кога администраторот на страницата ни отежнува ...

Кои ограничувања може да постојат?

Најчесто што може да откриеме е дека пристапот до страницата е дозволен само ако имате признаен Кориснички агент. Со други зборови, страницата ќе препознае дека UserAgent што презема толку многу страници не е од „нормалните“ и затоа ќе го затвори пристапот.

Исто така преку датотеката robots.txt можете да го наведете wget (како еден куп повеќе слични апликации) Нема да можете да преземате како што сака клиентот, добро ... добро, администраторот на страницата го сака, период

Како да се заобиколат овие ограничувања?

За првиот случај ќе воспоставиме UserAgent за wget, можеме да го направиме ова со опцијата –Корисник-агент, еве ви покажам како:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Сега, за да го заобиколите robots.txt, само исклучете ја таа датотека, односно, дозволете wget да ја преземе страницата и не се грижи што вели robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e роботи = исклучени

Сега ... има и други опции или параметри што можеме да ги искористиме за да ја измамиме страницата уште повеќе, на пример, означуваме дека ја внесуваме страницата од Google, тука ја оставам последната линија со сè:

wget --header = "Прифати: текст / html" - корисник-агент = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Гецко / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --реферер = http: / /www.google.com -r http://www.site.com -e роботи = надвор од -k

Не е задолжително веб-страницата да содржи http: // www на почетокот, може да биде една директно http: // како на пример оваа Геометрија цртичка

Дали е во ред да се направи ова?

Тоа зависи ... секогаш треба да го гледате од двете гледишта, од администраторот на страницата, но и од читателот.

Од една страна, како администратор, не би сакал да земаат HTML-копија од мојата страница токму така, тука е на Интернет не за задоволство, за уживање на сите ... нашата цел е да имаме достапна интересна содржина, која можете да ја научите.

Но, од друга страна ... има корисници кои немаат интернет дома, кои би сакале да го имаат целиот дел за упатства што ги ставивме тука ... Јас се ставив на нивно место (всушност сум, затоа што дома немам интернет) и не е пријатно да се биде на компјутер, да имаш проблем или да сакаш да сториш нешто и да не можеш затоа што немаш пристап до мрежата на мрежи.

Дали е правилно или погрешно, зависи од секој администратор, реалноста на секој ... што најмногу би ме загрижила би била потрошувачката на ресурси што предизвикува wget на серверот, но со добар систем за кешот тоа треба да биде доволно за серверот не страда.

Интернет

Заклучоци

Ве замолувам да не започнувате со преземање од Linux сега, ХАХАХА! На пример, мојата девојка ме замоли да преземам неколку измами за геометрија цртичка (нешто како геометрија измами за цртичка), јас нема да ја преземам целата веб-страница, туку само ќе ја отворам саканата страница и ќе ја зачувам во PDF или HTML или слично. е она што јас би ти препорачал.

Ако имате упатство за DesdeLinux што сакате да го зачувате, зачувајте го во обележувачите, како HTML или PDF ... но, за едно или две упатства не е потребно да се генерира прекумерен сообраќај и потрошувачка на серверот

Па ништо, се надевам дека е корисно ... Поздрав


Содржината на статијата се придржува до нашите принципи на уредничка етика. За да пријавите грешка, кликнете овде.

23 коментари, оставете ги вашите

Оставете го вашиот коментар

Вашата е-маил адреса нема да бидат објавени. Задолжителни полиња се означени со *

*

*

  1. Одговорен за податоците: Мигел Анхел Гатон
  2. Цел на податоците: Контролирајте СПАМ, управување со коментари.
  3. Легитимација: Ваша согласност
  4. Комуникација на податоците: Податоците нема да бидат соопштени на трети лица освен со законска обврска.
  5. Складирање на податоци: База на податоци хостирани од Occentus Networks (ЕУ)
  6. Права: Во секое време можете да ги ограничите, вратите и избришете вашите информации.

  1.   елиотим3000 dijo

    Интересен совет. Не знаев дека можеш да го сториш тоа.

  2.   Емануел dijo

    Експресно е тоа што ми се случи двапати, и секако беше поради тоа. Иако, од брзина (дома наспроти универзитет) сакав да пристапувам до содржината на тој начин. 😛
    Благодарам за советот. Со почит

  3.   Gerardo dijo

    Одлично за оние од нас кои немаат интернет. Секако добри упатства.

  4.   Киното dijo

    Многу интересна статија.
    Прашање: како може да се направи за страниците на https?
    Каде е потребно за автентикација со корисничко име и лозинка, а исто така голем дел од страницата е напишана во јава?
    Поздрав и благодарност

  5.   Гел калиум dijo

    и каде се зачувани преземањата?

    1.    Гел калиум dijo

      Јас си одговарам: во личната папка. Но, сега се поставува прашањето ... дали можете некако да му кажете каде да ја преземе содржината?

      благодарам

      1.    Даниел dijo

        Претпоставувам дека прво пристапувате до папката каде што сакате да ја зачувате, а потоа извршувате wget

  6.   Кристијан dijo

    пребарување ... и ќе има вакво нешто за да се „клонира“ базата на податоци

  7.   xphnx dijo

    Јас сум iousубопитен, дали добивате пари за поставување на тие врски до мрежи со микро-ниши?

  8.   Руперто dijo

    Блажен wget ... така преземав многу порно во моите свињи xD

  9.   алунадо dijo

    добар совет благодарам

  10.   NULL dijo

    Многу добро, ми се допадна делот за заобиколување на ограничувањата.

  11.   Франц dijo

    Ви благодариме за тој скапоцен камен:
    wget –header = »Прифати: текст / html» –корисник-агент = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ - препорачач = http: //www.google.com - р https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботи = исклучени

    wget –header = »Прифати: текст / html» –корисник-агент = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ - препорачач = http: //www.google.com - р https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e роботи = исклучени

    wget –header = »Прифати: текст / html» –корисник-агент = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ - препорачач = http: //www.google.com - р https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e роботи = исклучени

  12.   Паломарес dijo

    Многу интересно.

  13.   Оскар Меза dijo

    wget е една од оние ултра моќни алатки, со малку терминално програмирање можете да направите свој робот во стилот на Google за да започнете да ја преземате содржината на страниците и да ја чувате во вашата база на податоци и да правите што сакате подоцна со тие податоци.

  14.   Карлос Г. dijo

    Сметам дека оваа алатка е многу интересна, никогаш не сум обрнувала внимание на нејзините параметри, би сакала да знам дали можете да преземате содржина од страницата «X» на која треба да бидете најавени и дали е некаде на оваа страница « X »дали има видео, дали би го преземал дури и ако припаѓа на различен CDN од страницата« X »?

    Ако ова беше можно, како заштитува една страница од таква алатка?

    Честитки!

  15.   Ерик Занарди dijo

    Добра ноќ:

    Ти пишувам за консултација. Преземав со последната команда на овој напис, скоро 300 MB информации .. датотеки .swf, .js, .html, од страницата http://www.netacad.com/es со мојот корисник од мал курс што го направив во Маракај, Венецуела.

    Моето прашање е… Дали ќе биде можно да се видат флеш-анимациите?

    Внесувам „Глобална конфигурација“ и опциите што ги покажува никој не ми дозволуваат да ги конфигурирам.

    Го ценам секој одговор.

    Благодарам однапред!

    1.    ADX dijo

      Го имам истиот детал, .swf се преземаат на половина пат, ако успеете да го прескокнете, споделете информации со мене. Она што го пробав последен пат беше да користам пајак за да ги добијам сите врски на нетакад, но сепак .swf не ја заврши преземањето како што треба

  16.   алехандро.хернандез dijo

    многу добро !!! благодарам

  17.   Ана dijo

    Здраво, благодарам за вашето туто. Се обидувам да преземам блог во кој сум поканет, со лозинка, за да можам да го читам од дома без врска. Ја користам оваа програма, и очигледно, ја имам лозинката на блогот (wordpress), но не знам како да продолжам. Можеш ли да ми покажеш?
    Однапред благодарам и со почит!

  18.   Fran dijo

    каков одличен пост !!!

  19.   Сантијаго dijo

    одлично ми служеше многу

  20.   Fran dijo

    Јас сум најавен на веб-страница со вградени видео-видеа и не постои начин да се преземат .. се чини дека вимео ги има заштитени. Некакви идеи ??