Što je wget?
Ništa bolje od Wikipedija objasniti što se sastoji od ovog alata:
GNU Wget je besplatni softverski alat koji omogućuje preuzimanje sadržaja s web poslužitelja na jednostavan način. Njegovo ime potječe od World Wide Weba (w), a od "get" (na engleskom get), to znači: doći s WWW-a.
Trenutno podržava preuzimanje putem HTTP, HTTPS i FTP protokola.
Među najistaknutijim značajkama koje nudi wget postoji mogućnost jednostavnog rekurzivnog preuzimanja složenih zrcala, pretvorbe veza za lokalni prikaz HTML sadržaja, podrška za proxyje ...
De wget hemos hablado ya bastante aquí en DesdeLinux. Zapravo ya Vidjeli smo kako skinuti kompletnu web stranicu s wgetom, problem je što danas administratori ne dopuštaju nikome da preuzme cijelu njihovu web stranicu samo tako, to nije nešto što im se stvarno sviđa ... i, očito razumijem. Web stranica postoji na internetu radi konzultacija, čitatelj pristupa sadržaju koji vas zanima, a administrator web mjesta ima financijske koristi (putem oglašavanja), poput posjeta itd. Ako čitatelj preuzme web mjesto na svoje računalo, neće morati ići na mrežu da bi se savjetovao s prošlim postom.
Preuzimanje web stranice s wgetom jednostavno je kao:
wget -r -k http://www.sitio.com
- -r : To znači da će se preuzeti cijelo web mjesto.
- -k : To znači da će se veze preuzete web stranice pretvoriti kako bi se mogle vidjeti na računalima bez interneta.
Sad se stvari zakompliciraju kada nam administrator web mjesta otežava ...
Koja ograničenja mogu postojati?
Najčešće što smo mogli pronaći je da je pristup web mjestu dozvoljen samo ako imate prepoznat UserAgent. Drugim riječima, web lokacija će prepoznati da UserAgent koji preuzima toliko stranica nije jedna od "normalnih" i stoga će zatvoriti pristup.
Također putem datoteke robots.txt možete odrediti taj wget (poput gomile sličnih aplikacija) Nećete moći preuzeti po želji klijenta, pa ... pa, administrator web stranice to želi, točka 😀
Kako zaobići ta ograničenja?
Za prvi slučaj uspostavit ćemo UserAgent za wget, to možemo učiniti s opcijom -Korisnički agent, ovdje ću vam pokazati kako:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Sada, da biste se zaobišli robots.txt, samo izuzmite tu datoteku, to jest pustite wgetu da preuzme web mjesto i ne brine se što kaže robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = isključeno
Sad ... postoje i druge opcije ili parametri koje možemo upotrijebiti za još veću obmanu stranice, na primjer, naznačite da stranicu ulazimo iz Googlea, ovdje ostavljam završni redak sa svime:
wget --header = "Prihvaćam: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = isključeno -k
Je li u redu to učiniti?
To ovisi ... uvijek ga morate vidjeti s obje točke gledišta, od administratora stranice, ali i od čitača.
S jedne strane, kao administrator, ne bih volio da uzimaju HTML kopiju moje stranice samo tako, ona je ovdje na mreži ne iz užitka, iz užitka svih ... naš je cilj imati zanimljiv sadržaj dostupni vama da možete naučiti.
Ali, s druge strane ... postoje korisnici koji kod kuće nemaju internet, koji bi željeli imati cijeli odjeljak Tutoriali koje smo ovdje stavili ... Stavio sam se na njihovo mjesto (zapravo jesam, jer kod kuće nemam internet) i nije ugodno biti na računalu, imati problem ili želite nešto poduzeti, a ne možete jer nemate pristup mreži mreža.
Hoće li to biti ispravno ili ne, ovisi o svakom administratoru, o stvarnosti svakog ... ono što bi me najviše brinulo bila bi potrošnja resursa koju wget uzrokuje na poslužitelju, ali uz dobar sustav predmemorije to bi trebalo biti dovoljno za poslužitelj patiti.
Zaključci
Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.
Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉
Pa ništa, nadam se da je korisno ... Pozdrav
Zanimljiv savjet. Nisam znao da to možeš učiniti.
To mi se izričito dogodilo dva puta, i to je sigurno bilo zbog toga. Premda sam iz razloga brzine (dom u odnosu na sveučilište) želio pristupiti sadržaju na taj način. 😛
Hvala na savjetu. Pozdrav.
Izvrsno za one koji nemamo internet. Svakako dobri tutoriali.
Vrlo zanimljiv članak.
Pitanje: kako se to može učiniti za https stranice?
Gdje je potrebna autentifikacija pomoću korisničkog imena i lozinke, a također je velik dio web mjesta napisan u javi?
Pozdrav i hvala
i gdje se spremaju preuzimanja?
Odgovaram sebi: u osobnoj mapi. Ali sad je pitanje ... možete li mu nekako reći gdje da preuzme sadržaj?
graciass
Pretpostavljam da prvo pristupite mapi u koju ga želite spremiti, a zatim pokrenete wget
upit ... i bit će nešto poput ovog za "kloniranje" baze podataka
Zanima me, dobivate li novac za postavljanje tih veza na web stranice s mikro nišama?
Blaženi čovječe ... tako sam skinuo puno pornografije u svoje svinjske dane xD
dobar savjet. Hvala
Vrlo dobro, svidio mi se dio o zaobilaženju ograničenja.
Hvala na tom dragulju:
wget –header = »Prihvaćam: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = isključeno
wget –header = »Prihvaćam: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = isključeno
wget –header = »Prihvaćam: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = isključeno
Vrlo zanimljiva.
wget je jedan od onih izuzetno moćnih alata, s malo terminala za programiranje možete napraviti vlastitog robota u google stilu da započnete preuzimati sadržaj stranica i pohraniti ga u vlastitu bazu podataka i s tim podacima raditi što god želite kasnije.
Smatram da je ovaj alat vrlo zanimljiv, nikada nisam obraćao pažnju na njegove parametre, želio bih znati je li moguće preuzeti sadržaj sa stranice «X» na koju trebate biti prijavljeni i ako je negdje na ovom mjestu «X» postoji li videozapis, bih li ga također preuzeo čak i ako pripada drugom CDN-u od mjesta «X»?
Ako je to bilo moguće, kako web mjesto štiti od takvog alata?
Pozdrav!
Laku noć:
Pišem vam na konzultacije. Zadnjom naredbom ovog članka preuzeo sam sa stranice gotovo 300 MB podataka .. datoteke .swf, .js, .html http://www.netacad.com/es sa svojim korisnikom s malog tečaja koji sam održao na Maracayu u Venezueli.
Moje pitanje je ... Hoće li biti moguće vidjeti flash animacije?
Ulazim u "Global Configuration" (Globalna konfiguracija), a opcije koje pokazuje da nema nijednu, omogućuju mi konfiguriranje.
Cijenim svaki odgovor.
Hvala unaprijed!
Imam isti detalj, .swf se preuzima pola, ako ga uspijete preskočiti, podijelite me s informacijama Ono što sam posljednji put pokušao bilo je upotrijebiti pauka za dobivanje svih netacad veza, ali .swf ne završava preuzimanje kako bi trebalo
vrlo dobro !!! Hvala.
Pozdrav, hvala na tuto-u. Pokušavam skinuti blog na koji sam pozvan, sa lozinkom, kako bih ga mogao čitati od kuće bez veze. Koristim ovaj program i očito imam lozinku bloga (wordpress), ali ne znam kako dalje. Možete li mi pokazati?
Hvala unaprijed i lijep pozdrav!
kakav sjajan post !!!
izvrsno poslužilo mi je puno
Prijavljen sam na web mjesto s ugrađenim vimeo videozapisima i ne postoji način da se oni preuzmu .. čini se kao da ih je vimeo zaštitio. Ima li ideja ??