Preuzmite cijelu web stranicu s wgetom, čak i ako postoje ograničenja

Što je wget?

Ništa bolje od Wikipedija objasniti što se sastoji od ovog alata:

GNU Wget je besplatni softverski alat koji omogućuje preuzimanje sadržaja s web poslužitelja na jednostavan način. Njegovo ime potječe od World Wide Weba (w), a od "get" (na engleskom get), to znači: doći s WWW-a.

Trenutno podržava preuzimanje putem HTTP, HTTPS i FTP protokola.

Među najistaknutijim značajkama koje nudi wget postoji mogućnost jednostavnog rekurzivnog preuzimanja složenih zrcala, pretvorbe veza za lokalni prikaz HTML sadržaja, podrška za proxyje ...

De wget hemos hablado ya bastante aquí en DesdeLinux. Zapravo ya Vidjeli smo kako skinuti kompletnu web stranicu s wgetom, problem je što danas administratori ne dopuštaju nikome da preuzme cijelu njihovu web stranicu samo tako, to nije nešto što im se stvarno sviđa ... i, očito razumijem. Web stranica postoji na internetu radi konzultacija, čitatelj pristupa sadržaju koji vas zanima, a administrator web mjesta ima financijske koristi (putem oglašavanja), poput posjeta itd. Ako čitatelj preuzme web mjesto na svoje računalo, neće morati ići na mrežu da bi se savjetovao s prošlim postom.

Preuzimanje web stranice s wgetom jednostavno je kao:

wget -r -k http://www.sitio.com

  • -r : To znači da će se preuzeti cijelo web mjesto.
  • -k : To znači da će se veze preuzete web stranice pretvoriti kako bi se mogle vidjeti na računalima bez interneta.

Sad se stvari zakompliciraju kada nam administrator web mjesta otežava ...

Koja ograničenja mogu postojati?

Najčešće što smo mogli pronaći je da je pristup web mjestu dozvoljen samo ako imate prepoznat UserAgent. Drugim riječima, web lokacija će prepoznati da UserAgent koji preuzima toliko stranica nije jedna od "normalnih" i stoga će zatvoriti pristup.

Također putem datoteke robots.txt možete odrediti taj wget (poput gomile sličnih aplikacija) Nećete moći preuzeti po želji klijenta, pa ... pa, administrator web stranice to želi, točka 😀

Kako zaobići ta ograničenja?

Za prvi slučaj uspostavit ćemo UserAgent za wget, to možemo učiniti s opcijom -Korisnički agent, ovdje ću vam pokazati kako:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Sada, da biste se zaobišli robots.txt, samo izuzmite tu datoteku, to jest pustite wgetu da preuzme web mjesto i ne brine se što kaže robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = isključeno

Sad ... postoje i druge opcije ili parametri koje možemo upotrijebiti za još veću obmanu stranice, na primjer, naznačite da stranicu ulazimo iz Googlea, ovdje ostavljam završni redak sa svime:

wget --header = "Prihvaćam: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = isključeno -k

Nije obavezno da web lokacija sadrži http: // www na početku, to može biti izravno http: // kao na primjer ova geometrija crtica

Je li u redu to učiniti?

To ovisi ... uvijek ga morate vidjeti s obje točke gledišta, od administratora stranice, ali i od čitača.

S jedne strane, kao administrator, ne bih volio da uzimaju HTML kopiju moje stranice samo tako, ona je ovdje na mreži ne iz užitka, iz užitka svih ... naš je cilj imati zanimljiv sadržaj dostupni vama da možete naučiti.

Ali, s druge strane ... postoje korisnici koji kod kuće nemaju internet, koji bi željeli imati cijeli odjeljak Tutoriali koje smo ovdje stavili ... Stavio sam se na njihovo mjesto (zapravo jesam, jer kod kuće nemam internet) i nije ugodno biti na računalu, imati problem ili želite nešto poduzeti, a ne možete jer nemate pristup mreži mreža.

Hoće li to biti ispravno ili ne, ovisi o svakom administratoru, o stvarnosti svakog ... ono što bi me najviše brinulo bila bi potrošnja resursa koju wget uzrokuje na poslužitelju, ali uz dobar sustav predmemorije to bi trebalo biti dovoljno za poslužitelj patiti.

Internet

Zaključci

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

Pa ništa, nadam se da je korisno ... Pozdrav


23 komentara, ostavi svoj

Ostavite svoj komentar

Vaša email adresa neće biti objavljen. Obavezna polja su označena s *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obvezi.
  5. Pohrana podataka: Baza podataka koju hostira Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.

  1.   eliotime3000 dijo

    Zanimljiv savjet. Nisam znao da to možeš učiniti.

  2.   Emmanuel dijo

    To mi se izričito dogodilo dva puta, i to je sigurno bilo zbog toga. Premda sam iz razloga brzine (dom u odnosu na sveučilište) želio pristupiti sadržaju na taj način. 😛
    Hvala na savjetu. Pozdrav.

  3.   Gerardo dijo

    Izvrsno za one koji nemamo internet. Svakako dobri tutoriali.

  4.   Quinotto dijo

    Vrlo zanimljiv članak.
    Pitanje: kako se to može učiniti za https stranice?
    Gdje je potrebna autentifikacija pomoću korisničkog imena i lozinke, a također je velik dio web mjesta napisan u javi?
    Pozdrav i hvala

  5.   Gelibassium dijo

    i gdje se spremaju preuzimanja?

    1.    Gelibassium dijo

      Odgovaram sebi: u osobnoj mapi. Ali sad je pitanje ... možete li mu nekako reći gdje da preuzme sadržaj?

      graciass

      1.    Danijel dijo

        Pretpostavljam da prvo pristupite mapi u koju ga želite spremiti, a zatim pokrenete wget

  6.   Cristian dijo

    upit ... i bit će nešto poput ovog za "kloniranje" baze podataka

  7.   xphnx dijo

    Zanima me, dobivate li novac za postavljanje tih veza na web stranice s mikro nišama?

  8.   Rupert dijo

    Blaženi čovječe ... tako sam skinuo puno pornografije u svoje svinjske dane xD

  9.   mjesečina dijo

    dobar savjet. Hvala

  10.   NULL dijo

    Vrlo dobro, svidio mi se dio o zaobilaženju ograničenja.

  11.   Franz dijo

    Hvala na tom dragulju:
    wget –header = »Prihvaćam: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = isključeno

    wget –header = »Prihvaćam: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = isključeno

    wget –header = »Prihvaćam: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = isključeno

  12.   Palomares dijo

    Vrlo zanimljiva.

  13.   oscar meza dijo

    wget je jedan od onih izuzetno moćnih alata, s malo terminala za programiranje možete napraviti vlastitog robota u google stilu da započnete preuzimati sadržaj stranica i pohraniti ga u vlastitu bazu podataka i s tim podacima raditi što god želite kasnije.

  14.   Charles G. dijo

    Smatram da je ovaj alat vrlo zanimljiv, nikada nisam obraćao pažnju na njegove parametre, želio bih znati je li moguće preuzeti sadržaj sa stranice «X» na koju trebate biti prijavljeni i ako je negdje na ovom mjestu «X» postoji li videozapis, bih li ga također preuzeo čak i ako pripada drugom CDN-u od mjesta «X»?

    Ako je to bilo moguće, kako web mjesto štiti od takvog alata?

    Pozdrav!

  15.   Erick zanardi dijo

    Laku noć:

    Pišem vam na konzultacije. Zadnjom naredbom ovog članka preuzeo sam sa stranice gotovo 300 MB podataka .. datoteke .swf, .js, .html http://www.netacad.com/es sa svojim korisnikom s malog tečaja koji sam održao na Maracayu u Venezueli.

    Moje pitanje je ... Hoće li biti moguće vidjeti flash animacije?

    Ulazim u "Global Configuration" (Globalna konfiguracija), a opcije koje pokazuje da nema nijednu, omogućuju mi ​​konfiguriranje.

    Cijenim svaki odgovor.

    Hvala unaprijed!

    1.    ADX dijo

      Imam isti detalj, .swf se preuzima pola, ako ga uspijete preskočiti, podijelite me s informacijama Ono što sam posljednji put pokušao bilo je upotrijebiti pauka za dobivanje svih netacad veza, ali .swf ne završava preuzimanje kako bi trebalo

  16.   alexander.hernandez dijo

    vrlo dobro !!! Hvala.

  17.   zbirka anegdota dijo

    Pozdrav, hvala na tuto-u. Pokušavam skinuti blog na koji sam pozvan, sa lozinkom, kako bih ga mogao čitati od kuće bez veze. Koristim ovaj program i očito imam lozinku bloga (wordpress), ali ne znam kako dalje. Možete li mi pokazati?
    Hvala unaprijed i lijep pozdrav!

  18.   Fran dijo

    kakav sjajan post !!!

  19.   Santiago dijo

    izvrsno poslužilo mi je puno

  20.   Fran dijo

    Prijavljen sam na web mjesto s ugrađenim vimeo videozapisima i ne postoji način da se oni preuzmu .. čini se kao da ih je vimeo zaštitio. Ima li ideja ??