Töltsön le egy teljes webhelyet a wget segítségével, még ha vannak is korlátozások

Mi a wget?

Semmi sem jobb, mint Wikipedia elmagyarázni, miből áll ez az eszköz:

GNU Wget egy ingyenes szoftvereszköz, amely egyszerű módon lehetővé teszi a tartalom letöltését a webszerverekről. Neve a világhálóból származik (w), a "get" (angolul get) szóból pedig azt jelenti: get from the WWW.

Jelenleg a HTTP, HTTPS és FTP protokollok használatával támogatja a letöltéseket.

A legkiemelkedőbb szolgáltatások között kínál wget lehetőség van a komplex tükrök rekurzív letöltésére, linkek konvertálására a HTML-tartalom helyi megjelenítésére, a proxyk támogatása ...

De wget Már eleget beszéltünk itt DesdeLinux. Valójában ya Láttuk, hogyan lehet egy teljes weboldalt letölteni a wget segítségével, a probléma az, hogy manapság az adminisztrátorok nem mindig engedik meg senkinek, hogy csak úgy töltse le az egész weboldalát, ezt nem igazán szeretik ... és nyilvánvalóan megértem. A webhely az interneten van, hogy megkereshesse, az olvasó hozzáfér az érdeklődésre számot tartó tartalomhoz, és a webhely rendszergazdája pénzügyi előnyökkel jár (reklámozás révén), például látogatások stb. Ha az olvasó letölti a webhelyet a számítógépére, akkor nem kell az internetre lépnie egy korábbi bejegyzés megtekintéséhez.

Webhely letöltése a wget segítségével olyan egyszerű, mint:

wget -r -k http://www.sitio.com

  • -r : Ez azt jelzi, hogy a teljes weboldal letöltésre kerül.
  • -k : Ez azt jelzi, hogy a letöltött webhely linkjei átalakításra kerülnek, hogy internet nélkül láthassák őket a számítógépeken.

Most a helyzet bonyolultabbá válik, amikor a webhely rendszergazdája megnehezíti számunkra ...

Milyen korlátozások lehetnek?

A leggyakoribb, hogy azt találhatjuk, hogy a webhely csak akkor engedélyezett, ha rendelkezik elismert UserAgent-del. Más szavakkal, a webhely felismeri, hogy az ennyi oldalt letöltő UserAgent nem tartozik a "normál" oldalak közé, ezért bezárja a hozzáférést.

A robots.txt fájlon keresztül is megadhatja azt a wget-et (mint egy csomó hasonló alkalmazás) Nem fog tudni letölteni, ahogy az ügyfél szeretné, nos ... nos, a webhely rendszergazdája szeretné, pont 😀

Hogyan lehet kijátszani ezeket a korlátozásokat?

Az első esetben létrehozunk egy UserAgent-t a wget számára, ezt megtehetjük az opcióval –Felhasználó-ügynök, itt megmutatom, hogyan:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

A robots.txt fájl megkerüléséhez egyszerűen zárja ki azt a fájlt, vagyis hagyja, hogy a wget töltse le a webhelyet, és ne törődjön azzal, hogy a robots.txt mit mond:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robotok = ki

Most ... vannak más lehetőségek vagy paraméterek, amelyekkel még jobban megtéveszthetjük az oldalt, például jelezzük, hogy a Google-tól lépünk be az oldalra, itt mindent elhagyok az utolsó sorban:

wget --header = "Elfogadás: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Nem kötelező, hogy a webhely elején legyen a http: // www, lehet egy közvetlenül http: // is, mint például ez Geometry Dash

Rendben van ezt csinálni?

Ez attól függ ... mindig mindkét oldalról látnia kell, a webhely rendszergazdájától, de az olvasótól is.

Egyrészt rendszergazdaként nem szeretném, ha éppen így készítenének egy HTML-másolatot az oldalamról, nem szórakozásból, mindenki élvezetéért van itt online ... a célunk az, hogy érdekes tartalmak álljanak rendelkezésre, amelyeket megtanulhat.

De másrészt ... vannak olyan felhasználók, akiknek nincs internetük otthon, akik szeretnék, ha rendelkezésünkre állna a teljes Tutorials rész, amelyet itt elhelyeztünk ... a helyükre helyeztem magam (valójában az vagyok, mert otthon nincs internetem), és nem kellemes a számítógépen lenni, problémája van, vagy valamit tenni akar, és nem képes, mert nincs hozzáférése a hálózatok hálózatához.

Akár helyes, akár nem, azt minden rendszergazda, mindenki valósága döntheti el. Ami engem leginkább aggasztana, az az erőforrás-fogyasztás, amelyet a wget a szerveren okoz, de egy jó gyorsítótár-rendszerrel elégnek kell lennie a szerver nem szenved.

Internet

Következtetések

Megkérlek, hogy ne most kezdd el a letöltést. DesdeLinux HA HA HA!! Például a barátnőm megkért, hogy töltsek le néhány Geometry Dash csalást (olyat, mint a Geometry Dash Cheats), nem fogom letölteni a teljes webhelyet, hanem csak megnyitom a kívánt oldalt, és elmentem PDF vagy HTML formátumban, vagy valami ilyesmi. amit ajánlanék neked.

Ha van tutorial DesdeLinux amit el akarsz menteni, mentsd el a könyvjelzőidbe, HTML vagy PDF formátumban... de, egy-két tutorialhoz nem szükséges túlzott forgalmat és fogyasztást generálni a szerveren 😉

Hát semmi, remélem, hasznos lesz ... Üdvözlet


23 hozzászólás, hagyd a tiedet

Hagyja megjegyzését

E-mail címed nem kerül nyilvánosságra. Kötelező mezők vannak jelölve *

*

*

  1. Az adatokért felelős: Miguel Ángel Gatón
  2. Az adatok célja: A SPAM ellenőrzése, a megjegyzések kezelése.
  3. Legitimáció: Az Ön beleegyezése
  4. Az adatok közlése: Az adatokat csak jogi kötelezettség alapján továbbítjuk harmadik felekkel.
  5. Adattárolás: Az Occentus Networks (EU) által üzemeltetett adatbázis
  6. Jogok: Bármikor korlátozhatja, helyreállíthatja és törölheti adatait.

  1.   eliotime3000 dijo

    Érdekes tipp. Nem tudtam, hogy meg tudod csinálni.

  2.   Emmanuel dijo

    Kifejezetten ez történt velem kétszer, és minden bizonnyal miatta. Bár sebességi okokból (otthoni és egyetemi) akartam így hozzáférni a tartalomhoz. 😛
    Köszönöm a tanácsot. Üdvözlettel.

  3.   Gerardo dijo

    Nagyszerű azok számára, akiknek nincs internetünk. Természetesen jó oktatóanyagok.

  4.   Quinotto dijo

    Nagyon érdekes cikk.
    Kérdés: hogyan lehet megtenni a https webhelyeknél?
    Hol kell felhasználónévvel és jelszóval hitelesíteni, és a webhely nagy részét Java-ban írják?
    Üdvözlet és Köszönet

  5.   Gelibassium dijo

    és hol vannak a letöltések mentve?

    1.    Gelibassium dijo

      Felelem magamnak: a személyes mappában. De most a kérdés ... meg tudnád valahogy mondani neki, hogy hol töltse le a tartalmat?

      köszönöm

      1.    Daniel dijo

        Gondolom, először belépsz a mappába, ahová el akarod menteni, majd futtatod a wget programot

  6.   cristian dijo

    lekérdezés ... és lesz valami ilyesmi "klónozni" egy adatbázist

  7.   xphnx dijo

    Kíváncsi vagyok, kap-e pénzt azért, hogy ezeket a linkeket mikrorajongó webhelyekre helyezi?

  8.   Rupert dijo

    Áldott wget ... így töltöttem le sok pornót disznókoromban xD

  9.   alunádó dijo

    jó tipp. köszönöm

  10.   NULL dijo

    Nagyon jó, tetszett a korlátozások kijátszásáról szóló rész.

  11.   Franz dijo

    Köszönöm azt a drágakövet:
    wget –header = »Elfogadás: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotok = ki

    wget –header = »Elfogadás: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robotok = ki

    wget –header = »Elfogadás: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotok = ki

  12.   Galambok dijo

    Nagyon érdekes.

  13.   oscar meza dijo

    A wget egyike azoknak az rendkívül hatékony eszközöknek, egy kis terminál programozással elkészítheti saját google stílusú robotját, hogy elkezdhesse letölteni az oldalak tartalmát, és tárolja saját adatbázisában, és később bármit megtehessen ezekkel az adatokkal.

  14.   Carlos G. dijo

    Nagyon érdekesnek találom ezt az eszközt, soha nem figyeltem a paramétereire, szeretném tudni, hogy letölthet-e olyan tartalmat egy «X» oldalról, amelybe be kell jelentkeznie, és van-e valahol ezen az oldalon « X "van videó, akkor is letölteném, ha más CDN-hez tartozik, mint az" X "webhely?

    Ha ez lehetséges, hogyan véd a webhely egy ilyen eszköz ellen?

    Üdvözlet!

  15.   Erick zanardi dijo

    Jó éjszakát:

    Írok neked konzultációra. A cikk utolsó parancsával, majdnem 300 MB információval töltöttem le .swf, .js, .html fájlokat az oldalról http://www.netacad.com/es a felhasználómmal egy kis tanfolyamon, amelyet a venezuelai Maracay-ben végeztem.

    A kérdésem… Lehetséges-e a flash animációk megtekintése?

    Megadom a "Globális konfiguráció" szót, és az általa egyik sem látható opció lehetővé teszi a konfigurálást.

    Értékelem minden választ.

    Előre is köszönöm!

    1.    ADX dijo

      Nekem ugyanaz a részletem, a .swf fájlok felét töltik le, ha sikerül kihagyni, ossza meg velem az információkat. Amit utoljára próbáltam, az az volt, hogy egy pók segítségével megszereztem az összes netacad-linket, de a .swf nem fejezi be a letöltést, ahogy kellene

  16.   Sándor.hernandez dijo

    nagyon jó !!! köszönöm.

  17.   Ana dijo

    Helló, köszönöm a tutót. Megpróbálok letölteni egy blogot, amelybe meghívtak, jelszóval, hogy kapcsolat nélkül el tudjam olvasni otthonról. Használom ezt a programot, és nyilvánvalóan megvan a blog jelszava (wordpress), de nem tudom, hogyan tovább. Meg tudnád mutatni?
    Előre is köszönöm és üdvözlettel!

  18.   Fran dijo

    milyen nagyszerű bejegyzés !!!

  19.   Santiago dijo

    kiváló, nagyon sokat szolgált nekem

  20.   Fran dijo

    Be vagyok jelentkezve egy beágyazott vimeo videókkal rendelkező weboldalon, és nincs mód letöltésre. Úgy tűnik, mintha a vimeo védené őket. Bármilyen ötletet??