Šta je wget?
Ništa bolje od Wikipedia da objasnimo od čega se sastoji ovaj alat:
GNU Wget je besplatni softverski alat koji omogućava preuzimanje sadržaja s web servera na jednostavan način. Njegovo ime potječe od World Wide Weba (w), a od "get" (na engleskom get), to znači: get from WWW.
Trenutno podržava preuzimanje pomoću HTTP, HTTPS i FTP protokola.
Među najistaknutijim karakteristikama koje nudi wget postoji mogućnost jednostavnog rekurzivnog preuzimanja složenih zrcala, konverzije veza za lokalni prikaz HTML sadržaja, podrška za proxyje ...
De wget Već smo dovoljno razgovarali ovdje na DesdeLinux. Zapravo ya Vidjeli smo kako skinuti kompletnu web stranicu s wgetom, problem je što danas administratori ne dopuštaju nikome da preuzme cijelu njihovu web stranicu samo tako, to nije nešto što im se stvarno sviđa ... i, očito razumijem. Web lokacija postoji na Internetu da bi je konsultovala, čitatelj pristupa sadržaju koji vas zanima, a administrator stranice ima finansijske koristi (putem oglašavanja), poput posjeta itd. Ako čitatelj preuzme web lokaciju na svoj računar, neće morati ići na mrežu kako bi se posavjetovao s prošlim postom.
Preuzimanje web stranice pomoću wgeta jednostavno je kao:
wget -r -k http://www.sitio.com
- -r : Ovo znači da će se preuzeti cijela web lokacija.
- -k : Ovo ukazuje da će se veze preuzete web stranice pretvoriti kako bi se mogle vidjeti na računalima bez interneta.
Sad se stvari zakompliciraju kada nam administrator web lokacije otežava ...
Koja ograničenja mogu postojati?
Najčešće što smo mogli pronaći je da je pristup web lokaciji dozvoljen samo ako imate prepoznati UserAgent. Drugim riječima, web lokacija će prepoznati da UserAgent koji preuzima toliko stranica nije jedna od „normalnih“ i zato će zatvoriti pristup.
Takođe putem datoteke robots.txt možete odrediti da wget (poput gomile sličnih aplikacija) Nećete moći preuzeti po želji klijenta, pa ... pa, administrator web stranice to želi, točka 😀
Kako zaobići ta ograničenja?
Za prvi slučaj uspostavit ćemo UserAgent za wget, to možemo učiniti s opcijom –Korisnički agent, ovdje ću vam pokazati kako:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Sada, da biste se zaobišli robots.txt, samo izuzmite tu datoteku, to jest, pustite wget da preuzme web lokaciju i ne brine se što robots.txt kaže:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = isključeno
Sada ... postoje i druge opcije ili parametri kojima možemo još više zavarati web lokaciju, na primjer, naznačite da na Google ulazimo na tu stranicu, ovdje ostavljam završni redak sa svime:
wget --header = "Prihvaćam: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = isključeno -k
Da li je u redu to učiniti?
To ovisi ... to uvijek morate vidjeti s obje strane, od administratora web lokacije, ali i od čitača.
S jedne strane, kao administrator, ne bih volio da oni uzimaju HTML kopiju moje stranice samo tako, ona je ovdje na mreži ne iz zadovoljstva, iz užitka svih ... naš cilj je imati zanimljiv sadržaj dostupno, koje možete naučiti.
Ali, s druge strane ... postoje korisnici koji kod kuće nemaju internet, koji bi željeli imati cijeli odjeljak Tutoriali koje smo ovdje stavili ... Stavio sam se na njihovo mjesto (zapravo jesam, jer kod kuće nemam internet) i nije ugodno biti na računaru, imati problem ili želite nešto učiniti, a ne možete jer nemate pristup mreži mreža.
Hoće li to biti ispravno ili ne, ovisi o svakom administratoru, o stvarnosti svakoga ... ono što bi me najviše brinulo bila bi potrošnja resursa koju wget uzrokuje na serveru, ali uz dobar sistem predmemorije to bi trebalo biti dovoljno za server patiti.
ZAKLJUČCI
Molim vas da sada ne počinjete sa preuzimanjem. DesdeLinux HA HA HA!! Na primjer, moja djevojka me je zamolila da preuzmem neke Geometry Dash Cheats (nešto kao Geometry Dash Cheats), neću preuzeti cijelu web stranicu, već ću samo otvoriti željenu stranicu i spremiti je u PDF ili HTML ili nešto slično, to je šta bih vam preporučio.
Ako imate neki tutorijal DesdeLinux koje želite da sačuvate, sačuvajte ga u svojim bookmarkovima, kao HTML ili PDF... ali, za jedan ili dva tutorijala nije potrebno generisati preveliki promet i potrošnju na serveru 😉
Pa ništa, nadam se da je korisno ... Pozdrav
Zanimljiv savjet. Nisam znao da to možeš.
To mi se izričito dogodilo dva puta, i to sigurno zbog toga. Iako sam iz razloga brzine (od kuće do univerziteta) želio pristupiti sadržaju na taj način. 😛
Hvala na savetu. Pozdrav.
Odlično za one koji nemamo internet. Svakako dobri vodiči.
Vrlo zanimljiv članak.
Pitanje: kako se to može učiniti za https stranice?
Gdje je potrebna autentifikacija pomoću korisničkog imena i lozinke, a također je velik dio stranice napisan u javi?
Pozdrav i hvala
i gdje se spremaju preuzimanja?
Odgovaram sebi: u ličnom folderu. Ali sad je pitanje ... možete li mu nekako reći gdje da preuzme sadržaj?
hvala
Pretpostavljam da prvo pristupite mapi u kojoj ga želite spremiti, a zatim pokrenete wget
upit ... i postojat će nešto poput ovog za "kloniranje" baze podataka
Zanima me, da li dobijate novac za postavljanje tih veza na mreže sa mikro nišama?
Blagoslovljena ženo ... tako sam skinuo puno pornografije u svoja svinjska vremena xD
dobar savjet. hvala
Vrlo dobro, svidio mi se dio o zaobilaženju ograničenja.
Hvala na tom dragulju:
wget –header = »Prihvati: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = isključeno
wget –header = »Prihvati: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = isključeno
wget –header = »Prihvati: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = isključeno
Vrlo zanimljivo.
wget je jedan od onih izuzetno moćnih alata, s malo terminala za programiranje možete napraviti svog robota u google stilu da započnete preuzimati sadržaj stranica i pohraniti ga u vlastitu bazu podataka i s tim podacima raditi što god želite kasnije.
Smatram da je ovaj alat vrlo zanimljiv, nikada nisam obraćao pažnju na njegove parametre, volio bih znati da li je moguće preuzeti sadržaj sa «X» stranice na koju trebate biti prijavljeni i ako je negdje na ovome stranica «X» postoji li video zapis, bih li ga također preuzeo čak i ako pripada drugom CDN-u od mjesta «X»?
Ako je to bilo moguće, kako web lokacija štiti od takvog alata?
Pozdrav!
Laku noc:
Pišem vam na konsultacije. Zadnjom naredbom ovog članka preuzeo sam sa stranice gotovo 300 MB informacija. Datoteke .swf, .js, .html sa stranice http://www.netacad.com/es sa svojim korisnikom iz malog tečaja koji sam održao na Marakaju u Venezueli.
Moje pitanje je ... Hoće li biti moguće vidjeti flash animacije?
Ulazim u "Global Configuration" (Globalna konfiguracija) i opcije koje pokazuje da nijedna ne dozvoljavaju mi konfiguraciju.
Cijenim svaki odgovor.
Hvala unapred!
Imam isti detalj, .swf se preuzima pola, ako ga uspijete preskočiti, podijelite me s informacijama. Ono što sam prošli put učinio je da upotrijebim pauka da dobijem sve netacad veze, ali .swf ne završava preuzimanje kako bi trebalo
veoma dobro !!! hvala.
Pozdrav, hvala na tutou. Pokušavam preuzeti blog na koji sam pozvan, sa lozinkom, kako bih ga mogao čitati od kuće van mreže. Koristim ovaj program i očito imam lozinku bloga (wordpress), ali ne znam kako dalje. Možete li mi pokazati?
Hvala unaprijed i srdačan pozdrav!
kakav sjajan post !!!
izvrsno, mnogo mi je poslužilo
Prijavljen sam na web stranicu s ugrađenim vimeo video zapisima i ne postoji način da se oni preuzmu .. čini se kao da ih je vimeo zaštitio. Ima li ideja ??