Descarga sitio web completo con wget aún si hay restricciones

Last ned et helt nettsted med wget selv om det er begrensninger

Hva er wget?

Ingenting bedre enn Wikipedia for å forklare hva dette verktøyet består av:

GNU Wget er et gratis programvareverktøy som gjør det mulig å laste ned innhold fra webservere på en enkel måte. Navnet stammer fra World Wide Web (w), og fra "get" (på engelsk get), betyr dette: get from the WWW.

Foreløpig støtter den nedlastinger ved hjelp av HTTP-, HTTPS- og FTP-protokollene.

Blant de mest fremragende funksjonene den tilbyr wget det er muligheten for enkel nedlasting av komplekse speil rekursivt, konvertering av lenker for å vise HTML-innhold lokalt, støtte for proxyer ...

De wget hemos hablado ya bastante aquí en DesdeLinux. Faktisk ya Vi hadde sett hvordan vi lastet ned et komplett nettsted med wget, problemet er at administratorer i dag ikke alltid tillater noen å laste ned hele nettstedet akkurat slik, det er ikke noe de virkelig liker ... og, selvfølgelig, forstår jeg. Nettstedet er der på internett for konsultasjon, leseren får tilgang til innhold av interesse og nettstedsadministratoren har økonomiske fordeler (gjennom reklame), for eksempel besøk osv. Hvis leseren laster ned nettstedet til datamaskinen, trenger de ikke å gå online for å konsultere et tidligere innlegg.

Å laste ned et nettsted med wget er så enkelt som:

wget -r -k http://www.sitio.com

-r : Dette indikerer at hele nettstedet blir lastet ned.
-k : Dette indikerer at koblingene til det nedlastede nettstedet blir konvertert til å vises på datamaskiner uten internett.

Nå blir ting komplisert når nettstedsadministratoren gjør det vanskelig for oss ...

Hvilke begrensninger kan eksistere?

Det vanligste vi kunne finne er at tilgang til nettstedet bare er tillatt hvis du har en anerkjent UserAgent. Nettstedet vil med andre ord anerkjenne at UserAgent som laster ned så mange sider ikke er en av de "normale" sidene, og vil derfor lukke tilgangen.

Også gjennom robots.txt-filen kan du spesifisere den wget (som en haug med flere lignende apper) Du vil ikke kunne laste ned slik klienten ønsker, vel ... vel, nettstedsadministrator vil ha det, periode 😀

Hvordan omgå disse begrensningene?

For det første vil vi opprette en UserAgent for å wget, vi kan gjøre dette med alternativet -Bruker agent, her viser jeg deg hvordan:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Nå, for å komme deg rundt robots.txt, er det bare å ekskludere den filen, det vil si la wget laste ned siden og ikke bryr seg om hva robots.txt sier:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e roboter = av

Nå ... det er andre alternativer eller parametere som vi kan bruke til å lure nettstedet enda mer, for eksempel, indikere at vi kommer inn på nettstedet fra Google, her forlater jeg sluttlinjen med alt:

wget --header = "Godta: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e roboter = off -k

Det er ikke obligatorisk at siden inneholder http: // www i begynnelsen, det kan være en direkte http: // som for eksempel denne geometri Dash

Er det greit å gjøre dette?

Det avhenger ... du må alltid se det fra begge synspunkter, fra nettstedsadministratoren, men også fra leseren.

På den ene siden, som administrator, vil jeg ikke at de tar en HTML-kopi av nettstedet mitt akkurat slik, det er her online ikke for fornøyelse, til glede for alle ... Målet vårt er å ha interessant innhold tilgjengelig, som du kan lære.

Men på den annen side ... det er brukere som ikke har internett hjemme, som vil ha hele opplæringsdelen som vi har lagt her ... Jeg setter meg selv på deres sted (faktisk er jeg det, for hjemme har jeg ikke internett) og det er ikke hyggelig å være på datamaskinen, ha et problem eller ønsker å gjøre noe og ikke være i stand til det fordi du ikke har tilgang til nettverket.

Hvorvidt det er riktig eller galt, er opp til hver administrator, hver enkeltes virkelighet ... det som mest bekymrer meg, er ressursforbruket som wget forårsaker på serveren, men med et godt cache-system bør det være nok for serveren ikke lide.

Konklusjoner

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

Vel ingenting, jeg håper det er nyttig ... Hilsen

Legg igjen kommentaren Avbryt svar

eliotime3000. sa
hace 10 år

Interessant tips. Jeg visste ikke at du kunne gjøre det.

Svar på eliotime3000
Emmanuel sa
hace 10 år

Det er uttrykkelig hva som hadde skjedd med meg to ganger, og det var absolutt på grunn av det. Selv om det var av hastighetsgrunner (hjemme vs universitet) at jeg ønsket å få tilgang til innhold på den måten. 😛
Takk for rådet. Hilsen.

Svar til Emmanuel
Gerardo sa
hace 10 år

Flott for de av oss som ikke har internett. Gjerne gode opplæringsprogrammer.

Svar til Gerardo
Quinotto sa
hace 10 år

Veldig interessant artikkel.
Spørsmål: hvordan kan det gjøres for https-nettsteder?
Hvor kreves det å godkjenne med brukernavn og passord, og en stor del av nettstedet er skrevet i java?
Hilsen og takk

Svar på Quinotto
Gel kalium sa
hace 10 år

og hvor lagres nedlastningene?

Svar på Gelibasio
1. Gel kalium sa
  hace 10 år
  
  Jeg svarer meg selv: i den personlige mappen. Men nå er spørsmålet ... kan du på en eller annen måte fortelle ham hvor du skal laste ned innholdet?
  
  Takk
  
  Svar på Gelibasio
  1. Daniel sa
    hace 10 år
    
    Jeg antar at du først får tilgang til mappen der du vil lagre den, og deretter kjører du wget
    
    Svar til Daniel
cristian sa
hace 10 år

spørring ... og det vil være noe slikt for å "klone" en database

Svar til cristian
xphnx sa
hace 10 år

Jeg har en nysgjerrighet, mottar du penger for å plassere disse koblingene til mikronisjer?

Svar på xphnx
Rupert sa
hace 10 år

Velsignet wget ... slik lastet jeg ned mye porno i grisedagene xD

Svar på Ruperto
måneaktig sa
hace 10 år

godt tips. Takk

Svar på alunado
NULL sa
hace 10 år

Veldig bra, jeg likte delen om å omgå begrensningene.

Svar på NULL
Franz sa
hace 10 år

Takk for den perlen:
wget –header = »Godta: text / html» –bruker-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboter = av

wget –header = »Godta: text / html» –bruker-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboter = av

wget –header = »Godta: text / html» –bruker-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboter = av

Svar til Franz
Palomares sa
hace 10 år

Veldig interessant.

Svar til Palomares
oscar meza sa
hace 10 år

wget er et av de ekstremt kraftige verktøyene, med litt terminalprogrammering kan du lage din egen robot i google-stil for å begynne å laste ned innholdet på sidene og lagre den i din egen database og gjøre hva du vil senere med disse dataene.

Svar på Oscar Meza
Carlos G. sa
hace 9 år

Jeg synes dette verktøyet er veldig interessant, jeg hadde aldri tatt hensyn til parametrene, jeg vil gjerne vite om det er mulig å laste ned innhold fra en «X» -side du må være logget på for å komme inn, og om det er et sted på dette nettstedet «X» er det noen video, vil jeg også laste den ned selv om den tilhører en annen CDN enn «X» -siden?

Hvis dette var mulig, hvordan beskytter et nettsted mot et slikt verktøy?

Greetings!

Svar på Carlos G
Erick zanardi sa
hace 9 år

God natt:

Jeg skriver til deg for en konsultasjon. Jeg lastet ned med den siste kommandoen i denne artikkelen, nesten 300 MB informasjon .. filer .swf, .js, .html, fra siden http://www.netacad.com/es med brukeren min fra et lite kurs som jeg gjorde i Maracay, Venezuela.

Spørsmålet mitt er ... Vil det være mulig å se flash-animasjoner?

Jeg går inn i "Global Configuration" og alternativene som ikke viser noe, lar meg konfigurere.

Jeg setter pris på ethvert svar.

Takk på forhånd!

Svar til Erick Zanardi
1. ADX sa
  hace 9 år
  
  Jeg har samme detalj, .swf lastes ned halvveis, hvis du klarer å hoppe over den, kan du dele informasjon med meg. Det jeg prøvde sist var å bruke en edderkopp for å få alle netacad-koblingene, men .swf laster ikke ned nedlasting som den skal
  
  Svar på ADX
alexander.hernandez sa
hace 8 år

veldig bra !!! Takk.

Svar på alejandro.hernandez
Ann sa
hace 8 år

Hei, takk for din tuto. Jeg prøver å laste ned en blogg der jeg er invitert, med passord, slik at jeg kan lese den hjemmefra uten tilkobling. Jeg bruker dette programmet, og åpenbart har jeg passordet til bloggen (wordpress), men jeg vet ikke hvordan jeg skal fortsette. Kan du vise meg?
På forhånd takk og hilsen!

Svar til Ana
Fran sa
hace 7 år

for et flott innlegg !!!

Svar til Fran
Santiago sa
hace 7 år

utmerket det har tjent meg mye

Svar til Santiago
Fran sa
hace 7 år

Jeg er logget inn på et nettsted med innebygde vimeo-videoer, og det er ingen måte for dem å lastes ned .. det virker som om vimeo har dem beskyttet. Noen ideer??

Svar til Fran