Last ned et helt nettsted med wget selv om det er begrensninger

Hva er wget?

Ingenting bedre enn Wikipedia for å forklare hva dette verktøyet består av:

GNU Wget er et gratis programvareverktøy som gjør det mulig å laste ned innhold fra webservere på en enkel måte. Navnet stammer fra World Wide Web (w), og fra "get" (på engelsk get), betyr dette: get from the WWW.

Foreløpig støtter den nedlastinger ved hjelp av HTTP-, HTTPS- og FTP-protokollene.

Blant de mest fremragende funksjonene den tilbyr wget det er muligheten for enkel nedlasting av komplekse speil rekursivt, konvertering av lenker for å vise HTML-innhold lokalt, støtte for proxyer ...

De wget hemos hablado ya bastante aquí en DesdeLinux. Faktisk ya Vi hadde sett hvordan vi lastet ned et komplett nettsted med wget, problemet er at administratorer i dag ikke alltid tillater noen å laste ned hele nettstedet akkurat slik, det er ikke noe de virkelig liker ... og, selvfølgelig, forstår jeg. Nettstedet er der på internett for konsultasjon, leseren får tilgang til innhold av interesse og nettstedsadministratoren har økonomiske fordeler (gjennom reklame), for eksempel besøk osv. Hvis leseren laster ned nettstedet til datamaskinen, trenger de ikke å gå online for å konsultere et tidligere innlegg.

Å laste ned et nettsted med wget er så enkelt som:

wget -r -k http://www.sitio.com

  • -r : Dette indikerer at hele nettstedet blir lastet ned.
  • -k : Dette indikerer at koblingene til det nedlastede nettstedet blir konvertert til å vises på datamaskiner uten internett.

Nå blir ting komplisert når nettstedsadministratoren gjør det vanskelig for oss ...

Hvilke begrensninger kan eksistere?

Det vanligste vi kunne finne er at tilgang til nettstedet bare er tillatt hvis du har en anerkjent UserAgent. Nettstedet vil med andre ord anerkjenne at UserAgent som laster ned så mange sider ikke er en av de "normale" sidene, og vil derfor lukke tilgangen.

Også gjennom robots.txt-filen kan du spesifisere den wget (som en haug med flere lignende apper) Du vil ikke kunne laste ned slik klienten ønsker, vel ... vel, nettstedsadministrator vil ha det, periode 😀

Hvordan omgå disse begrensningene?

For det første vil vi opprette en UserAgent for å wget, vi kan gjøre dette med alternativet -Bruker agent, her viser jeg deg hvordan:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Nå, for å komme deg rundt robots.txt, er det bare å ekskludere den filen, det vil si la wget laste ned siden og ikke bryr seg om hva robots.txt sier:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e roboter = av

Nå ... det er andre alternativer eller parametere som vi kan bruke til å lure nettstedet enda mer, for eksempel, indikere at vi kommer inn på nettstedet fra Google, her forlater jeg sluttlinjen med alt:

wget --header = "Godta: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e roboter = off -k

Det er ikke obligatorisk at siden inneholder http: // www i begynnelsen, det kan være en direkte http: // som for eksempel denne geometri Dash

Er det greit å gjøre dette?

Det avhenger ... du må alltid se det fra begge synspunkter, fra nettstedsadministratoren, men også fra leseren.

På den ene siden, som administrator, vil jeg ikke at de tar en HTML-kopi av nettstedet mitt akkurat slik, det er her online ikke for fornøyelse, til glede for alle ... Målet vårt er å ha interessant innhold tilgjengelig, som du kan lære.

Men på den annen side ... det er brukere som ikke har internett hjemme, som vil ha hele opplæringsdelen som vi har lagt her ... Jeg setter meg selv på deres sted (faktisk er jeg det, for hjemme har jeg ikke internett) og det er ikke hyggelig å være på datamaskinen, ha et problem eller ønsker å gjøre noe og ikke være i stand til det fordi du ikke har tilgang til nettverket.

Hvorvidt det er riktig eller galt, er opp til hver administrator, hver enkeltes virkelighet ... det som mest bekymrer meg, er ressursforbruket som wget forårsaker på serveren, men med et godt cache-system bør det være nok for serveren ikke lide.

Internett

Konklusjoner

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

Vel ingenting, jeg håper det er nyttig ... Hilsen


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.

  1.   eliotime3000. sa

    Interessant tips. Jeg visste ikke at du kunne gjøre det.

  2.   Emmanuel sa

    Det er uttrykkelig hva som hadde skjedd med meg to ganger, og det var absolutt på grunn av det. Selv om det var av hastighetsgrunner (hjemme vs universitet) at jeg ønsket å få tilgang til innhold på den måten. 😛
    Takk for rådet. Hilsen.

  3.   Gerardo sa

    Flott for de av oss som ikke har internett. Gjerne gode opplæringsprogrammer.

  4.   Quinotto sa

    Veldig interessant artikkel.
    Spørsmål: hvordan kan det gjøres for https-nettsteder?
    Hvor kreves det å godkjenne med brukernavn og passord, og en stor del av nettstedet er skrevet i java?
    Hilsen og takk

  5.   Gel kalium sa

    og hvor lagres nedlastningene?

    1.    Gel kalium sa

      Jeg svarer meg selv: i den personlige mappen. Men nå er spørsmålet ... kan du på en eller annen måte fortelle ham hvor du skal laste ned innholdet?

      Takk

      1.    Daniel sa

        Jeg antar at du først får tilgang til mappen der du vil lagre den, og deretter kjører du wget

  6.   cristian sa

    spørring ... og det vil være noe slikt for å "klone" en database

  7.   xphnx sa

    Jeg har en nysgjerrighet, mottar du penger for å plassere disse koblingene til mikronisjer?

  8.   Rupert sa

    Velsignet wget ... slik lastet jeg ned mye porno i grisedagene xD

  9.   måneaktig sa

    godt tips. Takk

  10.   NULL sa

    Veldig bra, jeg likte delen om å omgå begrensningene.

  11.   Franz sa

    Takk for den perlen:
    wget –header = »Godta: text / html» –bruker-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboter = av

    wget –header = »Godta: text / html» –bruker-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboter = av

    wget –header = »Godta: text / html» –bruker-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboter = av

  12.   Palomares sa

    Veldig interessant.

  13.   oscar meza sa

    wget er et av de ekstremt kraftige verktøyene, med litt terminalprogrammering kan du lage din egen robot i google-stil for å begynne å laste ned innholdet på sidene og lagre den i din egen database og gjøre hva du vil senere med disse dataene.

  14.   Carlos G. sa

    Jeg synes dette verktøyet er veldig interessant, jeg hadde aldri tatt hensyn til parametrene, jeg vil gjerne vite om det er mulig å laste ned innhold fra en «X» -side du må være logget på for å komme inn, og om det er et sted på dette nettstedet «X» er det noen video, vil jeg også laste den ned selv om den tilhører en annen CDN enn «X» -siden?

    Hvis dette var mulig, hvordan beskytter et nettsted mot et slikt verktøy?

    Greetings!

  15.   Erick zanardi sa

    God natt:

    Jeg skriver til deg for en konsultasjon. Jeg lastet ned med den siste kommandoen i denne artikkelen, nesten 300 MB informasjon .. filer .swf, .js, .html, fra siden http://www.netacad.com/es med brukeren min fra et lite kurs som jeg gjorde i Maracay, Venezuela.

    Spørsmålet mitt er ... Vil det være mulig å se flash-animasjoner?

    Jeg går inn i "Global Configuration" og alternativene som ikke viser noe, lar meg konfigurere.

    Jeg setter pris på ethvert svar.

    Takk på forhånd!

    1.    ADX sa

      Jeg har samme detalj, .swf lastes ned halvveis, hvis du klarer å hoppe over den, kan du dele informasjon med meg. Det jeg prøvde sist var å bruke en edderkopp for å få alle netacad-koblingene, men .swf laster ikke ned nedlasting som den skal

  16.   alexander.hernandez sa

    veldig bra !!! Takk.

  17.   Ann sa

    Hei, takk for din tuto. Jeg prøver å laste ned en blogg der jeg er invitert, med passord, slik at jeg kan lese den hjemmefra uten tilkobling. Jeg bruker dette programmet, og åpenbart har jeg passordet til bloggen (wordpress), men jeg vet ikke hvordan jeg skal fortsette. Kan du vise meg?
    På forhånd takk og hilsen!

  18.   Fran sa

    for et flott innlegg !!!

  19.   Santiago sa

    utmerket det har tjent meg mye

  20.   Fran sa

    Jeg er logget inn på et nettsted med innebygde vimeo-videoer, og det er ingen måte for dem å lastes ned .. det virker som om vimeo har dem beskyttet. Noen ideer??