Mi a wget?
Semmi sem jobb, mint Wikipedia elmagyarázni, miből áll ez az eszköz:
GNU Wget egy ingyenes szoftvereszköz, amely egyszerű módon lehetővé teszi a tartalom letöltését a webszerverekről. Neve a világhálóból származik (w), a "get" (angolul get) szóból pedig azt jelenti: get from the WWW.
Jelenleg a HTTP, HTTPS és FTP protokollok használatával támogatja a letöltéseket.
A legkiemelkedőbb szolgáltatások között kínál wget lehetőség van a komplex tükrök rekurzív letöltésére, linkek konvertálására a HTML-tartalom helyi megjelenítésére, a proxyk támogatása ...
De wget Már eleget beszéltünk itt DesdeLinux. Valójában ya Láttuk, hogyan lehet egy teljes weboldalt letölteni a wget segítségével, a probléma az, hogy manapság az adminisztrátorok nem mindig engedik meg senkinek, hogy csak úgy töltse le az egész weboldalát, ezt nem igazán szeretik ... és nyilvánvalóan megértem. A webhely az interneten van, hogy megkereshesse, az olvasó hozzáfér az érdeklődésre számot tartó tartalomhoz, és a webhely rendszergazdája pénzügyi előnyökkel jár (reklámozás révén), például látogatások stb. Ha az olvasó letölti a webhelyet a számítógépére, akkor nem kell az internetre lépnie egy korábbi bejegyzés megtekintéséhez.
Webhely letöltése a wget segítségével olyan egyszerű, mint:
wget -r -k http://www.sitio.com
- -r : Ez azt jelzi, hogy a teljes weboldal letöltésre kerül.
- -k : Ez azt jelzi, hogy a letöltött webhely linkjei átalakításra kerülnek, hogy internet nélkül láthassák őket a számítógépeken.
Most a helyzet bonyolultabbá válik, amikor a webhely rendszergazdája megnehezíti számunkra ...
Milyen korlátozások lehetnek?
A leggyakoribb, hogy azt találhatjuk, hogy a webhely csak akkor engedélyezett, ha rendelkezik elismert UserAgent-del. Más szavakkal, a webhely felismeri, hogy az ennyi oldalt letöltő UserAgent nem tartozik a "normál" oldalak közé, ezért bezárja a hozzáférést.
A robots.txt fájlon keresztül is megadhatja azt a wget-et (mint egy csomó hasonló alkalmazás) Nem fog tudni letölteni, ahogy az ügyfél szeretné, nos ... nos, a webhely rendszergazdája szeretné, pont 😀
Hogyan lehet kijátszani ezeket a korlátozásokat?
Az első esetben létrehozunk egy UserAgent-t a wget számára, ezt megtehetjük az opcióval –Felhasználó-ügynök, itt megmutatom, hogyan:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
A robots.txt fájl megkerüléséhez egyszerűen zárja ki azt a fájlt, vagyis hagyja, hogy a wget töltse le a webhelyet, és ne törődjön azzal, hogy a robots.txt mit mond:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robotok = ki
Most ... vannak más lehetőségek vagy paraméterek, amelyekkel még jobban megtéveszthetjük az oldalt, például jelezzük, hogy a Google-tól lépünk be az oldalra, itt mindent elhagyok az utolsó sorban:
wget --header = "Elfogadás: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k
Rendben van ezt csinálni?
Ez attól függ ... mindig mindkét oldalról látnia kell, a webhely rendszergazdájától, de az olvasótól is.
Egyrészt rendszergazdaként nem szeretném, ha éppen így készítenének egy HTML-másolatot az oldalamról, nem szórakozásból, mindenki élvezetéért van itt online ... a célunk az, hogy érdekes tartalmak álljanak rendelkezésre, amelyeket megtanulhat.
De másrészt ... vannak olyan felhasználók, akiknek nincs internetük otthon, akik szeretnék, ha rendelkezésünkre állna a teljes Tutorials rész, amelyet itt elhelyeztünk ... a helyükre helyeztem magam (valójában az vagyok, mert otthon nincs internetem), és nem kellemes a számítógépen lenni, problémája van, vagy valamit tenni akar, és nem képes, mert nincs hozzáférése a hálózatok hálózatához.
Akár helyes, akár nem, azt minden rendszergazda, mindenki valósága döntheti el. Ami engem leginkább aggasztana, az az erőforrás-fogyasztás, amelyet a wget a szerveren okoz, de egy jó gyorsítótár-rendszerrel elégnek kell lennie a szerver nem szenved.
Következtetések
Megkérlek, hogy ne most kezdd el a letöltést. DesdeLinux HA HA HA!! Például a barátnőm megkért, hogy töltsek le néhány Geometry Dash csalást (olyat, mint a Geometry Dash Cheats), nem fogom letölteni a teljes webhelyet, hanem csak megnyitom a kívánt oldalt, és elmentem PDF vagy HTML formátumban, vagy valami ilyesmi. amit ajánlanék neked.
Ha van tutorial DesdeLinux amit el akarsz menteni, mentsd el a könyvjelzőidbe, HTML vagy PDF formátumban... de, egy-két tutorialhoz nem szükséges túlzott forgalmat és fogyasztást generálni a szerveren 😉
Hát semmi, remélem, hasznos lesz ... Üdvözlet
Érdekes tipp. Nem tudtam, hogy meg tudod csinálni.
Kifejezetten ez történt velem kétszer, és minden bizonnyal miatta. Bár sebességi okokból (otthoni és egyetemi) akartam így hozzáférni a tartalomhoz. 😛
Köszönöm a tanácsot. Üdvözlettel.
Nagyszerű azok számára, akiknek nincs internetünk. Természetesen jó oktatóanyagok.
Nagyon érdekes cikk.
Kérdés: hogyan lehet megtenni a https webhelyeknél?
Hol kell felhasználónévvel és jelszóval hitelesíteni, és a webhely nagy részét Java-ban írják?
Üdvözlet és Köszönet
és hol vannak a letöltések mentve?
Felelem magamnak: a személyes mappában. De most a kérdés ... meg tudnád valahogy mondani neki, hogy hol töltse le a tartalmat?
köszönöm
Gondolom, először belépsz a mappába, ahová el akarod menteni, majd futtatod a wget programot
lekérdezés ... és lesz valami ilyesmi "klónozni" egy adatbázist
Kíváncsi vagyok, kap-e pénzt azért, hogy ezeket a linkeket mikrorajongó webhelyekre helyezi?
Áldott wget ... így töltöttem le sok pornót disznókoromban xD
jó tipp. köszönöm
Nagyon jó, tetszett a korlátozások kijátszásáról szóló rész.
Köszönöm azt a drágakövet:
wget –header = »Elfogadás: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotok = ki
wget –header = »Elfogadás: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robotok = ki
wget –header = »Elfogadás: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotok = ki
Nagyon érdekes.
A wget egyike azoknak az rendkívül hatékony eszközöknek, egy kis terminál programozással elkészítheti saját google stílusú robotját, hogy elkezdhesse letölteni az oldalak tartalmát, és tárolja saját adatbázisában, és később bármit megtehessen ezekkel az adatokkal.
Nagyon érdekesnek találom ezt az eszközt, soha nem figyeltem a paramétereire, szeretném tudni, hogy letölthet-e olyan tartalmat egy «X» oldalról, amelybe be kell jelentkeznie, és van-e valahol ezen az oldalon « X "van videó, akkor is letölteném, ha más CDN-hez tartozik, mint az" X "webhely?
Ha ez lehetséges, hogyan véd a webhely egy ilyen eszköz ellen?
Üdvözlet!
Jó éjszakát:
Írok neked konzultációra. A cikk utolsó parancsával, majdnem 300 MB információval töltöttem le .swf, .js, .html fájlokat az oldalról http://www.netacad.com/es a felhasználómmal egy kis tanfolyamon, amelyet a venezuelai Maracay-ben végeztem.
A kérdésem… Lehetséges-e a flash animációk megtekintése?
Megadom a "Globális konfiguráció" szót, és az általa egyik sem látható opció lehetővé teszi a konfigurálást.
Értékelem minden választ.
Előre is köszönöm!
Nekem ugyanaz a részletem, a .swf fájlok felét töltik le, ha sikerül kihagyni, ossza meg velem az információkat. Amit utoljára próbáltam, az az volt, hogy egy pók segítségével megszereztem az összes netacad-linket, de a .swf nem fejezi be a letöltést, ahogy kellene
nagyon jó !!! köszönöm.
Helló, köszönöm a tutót. Megpróbálok letölteni egy blogot, amelybe meghívtak, jelszóval, hogy kapcsolat nélkül el tudjam olvasni otthonról. Használom ezt a programot, és nyilvánvalóan megvan a blog jelszava (wordpress), de nem tudom, hogyan tovább. Meg tudnád mutatni?
Előre is köszönöm és üdvözlettel!
milyen nagyszerű bejegyzés !!!
kiváló, nagyon sokat szolgált nekem
Be vagyok jelentkezve egy beágyazott vimeo videókkal rendelkező weboldalon, és nincs mód letöltésre. Úgy tűnik, mintha a vimeo védené őket. Bármilyen ötletet??