Preuzmite cijelu web stranicu s wgetom, čak i ako postoje ograničenja

Šta je wget?

Ništa bolje od Wikipedia da objasnimo od čega se sastoji ovaj alat:

GNU Wget je besplatni softverski alat koji omogućava preuzimanje sadržaja s web servera na jednostavan način. Njegovo ime potječe od World Wide Weba (w), a od "get" (na engleskom get), to znači: get from WWW.

Trenutno podržava preuzimanje pomoću HTTP, HTTPS i FTP protokola.

Među najistaknutijim karakteristikama koje nudi wget postoji mogućnost jednostavnog rekurzivnog preuzimanja složenih zrcala, konverzije veza za lokalni prikaz HTML sadržaja, podrška za proxyje ...

De wget Već smo dovoljno razgovarali ovdje na DesdeLinux. Zapravo ya Vidjeli smo kako skinuti kompletnu web stranicu s wgetom, problem je što danas administratori ne dopuštaju nikome da preuzme cijelu njihovu web stranicu samo tako, to nije nešto što im se stvarno sviđa ... i, očito razumijem. Web lokacija postoji na Internetu da bi je konsultovala, čitatelj pristupa sadržaju koji vas zanima, a administrator stranice ima finansijske koristi (putem oglašavanja), poput posjeta itd. Ako čitatelj preuzme web lokaciju na svoj računar, neće morati ići na mrežu kako bi se posavjetovao s prošlim postom.

Preuzimanje web stranice pomoću wgeta jednostavno je kao:

wget -r -k http://www.sitio.com

  • -r : Ovo znači da će se preuzeti cijela web lokacija.
  • -k : Ovo ukazuje da će se veze preuzete web stranice pretvoriti kako bi se mogle vidjeti na računalima bez interneta.

Sad se stvari zakompliciraju kada nam administrator web lokacije otežava ...

Koja ograničenja mogu postojati?

Najčešće što smo mogli pronaći je da je pristup web lokaciji dozvoljen samo ako imate prepoznati UserAgent. Drugim riječima, web lokacija će prepoznati da UserAgent koji preuzima toliko stranica nije jedna od „normalnih“ i zato će zatvoriti pristup.

Takođe putem datoteke robots.txt možete odrediti da wget (poput gomile sličnih aplikacija) Nećete moći preuzeti po želji klijenta, pa ... pa, administrator web stranice to želi, točka 😀

Kako zaobići ta ograničenja?

Za prvi slučaj uspostavit ćemo UserAgent za wget, to možemo učiniti s opcijom –Korisnički agent, ovdje ću vam pokazati kako:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Sada, da biste se zaobišli robots.txt, samo izuzmite tu datoteku, to jest, pustite wget da preuzme web lokaciju i ne brine se što robots.txt kaže:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = isključeno

Sada ... postoje i druge opcije ili parametri kojima možemo još više zavarati web lokaciju, na primjer, naznačite da na Google ulazimo na tu stranicu, ovdje ostavljam završni redak sa svime:

wget --header = "Prihvaćam: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = isključeno -k

Nije obavezno da web lokacija sadrži http: // www na početku, to može biti direktno http: // kao na primjer ova Geometrija Dash

Da li je u redu to učiniti?

To ovisi ... to uvijek morate vidjeti s obje strane, od administratora web lokacije, ali i od čitača.

S jedne strane, kao administrator, ne bih volio da oni uzimaju HTML kopiju moje stranice samo tako, ona je ovdje na mreži ne iz zadovoljstva, iz užitka svih ... naš cilj je imati zanimljiv sadržaj dostupno, koje možete naučiti.

Ali, s druge strane ... postoje korisnici koji kod kuće nemaju internet, koji bi željeli imati cijeli odjeljak Tutoriali koje smo ovdje stavili ... Stavio sam se na njihovo mjesto (zapravo jesam, jer kod kuće nemam internet) i nije ugodno biti na računaru, imati problem ili želite nešto učiniti, a ne možete jer nemate pristup mreži mreža.

Hoće li to biti ispravno ili ne, ovisi o svakom administratoru, o stvarnosti svakoga ... ono što bi me najviše brinulo bila bi potrošnja resursa koju wget uzrokuje na serveru, ali uz dobar sistem predmemorije to bi trebalo biti dovoljno za server patiti.

Internet

ZAKLJUČCI

Molim vas da sada ne počinjete sa preuzimanjem. DesdeLinux HA HA HA!! Na primjer, moja djevojka me je zamolila da preuzmem neke Geometry Dash Cheats (nešto kao Geometry Dash Cheats), neću preuzeti cijelu web stranicu, već ću samo otvoriti željenu stranicu i spremiti je u PDF ili HTML ili nešto slično, to je šta bih vam preporučio.

Ako imate neki tutorijal DesdeLinux koje želite da sačuvate, sačuvajte ga u svojim bookmarkovima, kao HTML ili PDF... ali, za jedan ili dva tutorijala nije potrebno generisati preveliki promet i potrošnju na serveru 😉

Pa ništa, nadam se da je korisno ... Pozdrav


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   eliotime3000 rekao je

    Zanimljiv savjet. Nisam znao da to možeš.

  2.   Emmanuel rekao je

    To mi se izričito dogodilo dva puta, i to sigurno zbog toga. Iako sam iz razloga brzine (od kuće do univerziteta) želio pristupiti sadržaju na taj način. 😛
    Hvala na savetu. Pozdrav.

  3.   Gerardo rekao je

    Odlično za one koji nemamo internet. Svakako dobri vodiči.

  4.   Quinotto rekao je

    Vrlo zanimljiv članak.
    Pitanje: kako se to može učiniti za https stranice?
    Gdje je potrebna autentifikacija pomoću korisničkog imena i lozinke, a također je velik dio stranice napisan u javi?
    Pozdrav i hvala

  5.   Gelibassium rekao je

    i gdje se spremaju preuzimanja?

    1.    Gelibassium rekao je

      Odgovaram sebi: u ličnom folderu. Ali sad je pitanje ... možete li mu nekako reći gdje da preuzme sadržaj?

      hvala

      1.    Danijel rekao je

        Pretpostavljam da prvo pristupite mapi u kojoj ga želite spremiti, a zatim pokrenete wget

  6.   Kristijan rekao je

    upit ... i postojat će nešto poput ovog za "kloniranje" baze podataka

  7.   xphnx rekao je

    Zanima me, da li dobijate novac za postavljanje tih veza na mreže sa mikro nišama?

  8.   Rupert rekao je

    Blagoslovljena ženo ... tako sam skinuo puno pornografije u svoja svinjska vremena xD

  9.   moony rekao je

    dobar savjet. hvala

  10.   NULL rekao je

    Vrlo dobro, svidio mi se dio o zaobilaženju ograničenja.

  11.   Franz rekao je

    Hvala na tom dragulju:
    wget –header = »Prihvati: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = isključeno

    wget –header = »Prihvati: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = isključeno

    wget –header = »Prihvati: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = isključeno

  12.   Dovecotes rekao je

    Vrlo zanimljivo.

  13.   oscar meza rekao je

    wget je jedan od onih izuzetno moćnih alata, s malo terminala za programiranje možete napraviti svog robota u google stilu da započnete preuzimati sadržaj stranica i pohraniti ga u vlastitu bazu podataka i s tim podacima raditi što god želite kasnije.

  14.   Charles G. rekao je

    Smatram da je ovaj alat vrlo zanimljiv, nikada nisam obraćao pažnju na njegove parametre, volio bih znati da li je moguće preuzeti sadržaj sa «X» stranice na koju trebate biti prijavljeni i ako je negdje na ovome stranica «X» postoji li video zapis, bih li ga također preuzeo čak i ako pripada drugom CDN-u od mjesta «X»?

    Ako je to bilo moguće, kako web lokacija štiti od takvog alata?

    Pozdrav!

  15.   Erick zanardi rekao je

    Laku noc:

    Pišem vam na konsultacije. Zadnjom naredbom ovog članka preuzeo sam sa stranice gotovo 300 MB informacija. Datoteke .swf, .js, .html sa stranice http://www.netacad.com/es sa svojim korisnikom iz malog tečaja koji sam održao na Marakaju u Venezueli.

    Moje pitanje je ... Hoće li biti moguće vidjeti flash animacije?

    Ulazim u "Global Configuration" (Globalna konfiguracija) i opcije koje pokazuje da nijedna ne dozvoljavaju mi ​​konfiguraciju.

    Cijenim svaki odgovor.

    Hvala unapred!

    1.    ADX rekao je

      Imam isti detalj, .swf se preuzima pola, ako ga uspijete preskočiti, podijelite me s informacijama. Ono što sam prošli put učinio je da upotrijebim pauka da dobijem sve netacad veze, ali .swf ne završava preuzimanje kako bi trebalo

  16.   alexander.hernandez rekao je

    veoma dobro !!! hvala.

  17.   Ana rekao je

    Pozdrav, hvala na tutou. Pokušavam preuzeti blog na koji sam pozvan, sa lozinkom, kako bih ga mogao čitati od kuće van mreže. Koristim ovaj program i očito imam lozinku bloga (wordpress), ali ne znam kako dalje. Možete li mi pokazati?
    Hvala unaprijed i srdačan pozdrav!

  18.   Fran rekao je

    kakav sjajan post !!!

  19.   Santiago rekao je

    izvrsno, mnogo mi je poslužilo

  20.   Fran rekao je

    Prijavljen sam na web stranicu s ugrađenim vimeo video zapisima i ne postoji način da se oni preuzmu .. čini se kao da ih je vimeo zaštitio. Ima li ideja ??