Lejupielādējiet visu vietni ar vietni wget, pat ja pastāv ierobežojumi

Kas ir wget?

Nekas labāks par Wikipedia izskaidrot, no kā sastāv šis rīks:

GNU Wget ir bezmaksas programmatūras rīks, kas vienkāršā veidā ļauj lejupielādēt saturu no tīmekļa serveriem. Tās nosaukums cēlies no globālā tīmekļa (w) un no “get” (angļu valodā get) tas nozīmē: iegūt no WWW.

Pašlaik tā atbalsta lejupielādes, izmantojot HTTP, HTTPS un FTP protokolus.

Starp izcilākajām tā piedāvātajām funkcijām wget ir iespēja ērti lejupielādēt sarežģītus spoguļus rekursīvi, pārveidot saites, lai lokāli parādītu HTML saturu, atbalstīt starpniekserverus ...

De wget hemos hablado ya bastante aquí en DesdeLinux. Patiesībā ya Mēs bijām redzējuši, kā lejupielādēt pilnu vietni ar wget, problēma ir tā, ka mūsdienās administratori ne vienmēr ļauj nevienam tā lejupielādēt visu savu vietni, tas viņiem patiešām nepatīk ... un, protams, es saprotu. Vietne atrodas internetā, lai ar to iepazītos, lasītājs piekļūst interesējošam saturam, un vietnes administrators finansiāli labi (izmantojot reklāmu) gūst labumu, piemēram, apmeklējumus utt. Ja lasītājs lejupielādē vietni savā datorā, viņam nebūs jādodas tiešsaistē, lai iepazītos ar iepriekšējo ziņu.

Vietnes lejupielāde ar wget ir tik vienkārša kā:

wget -r -k http://www.sitio.com

  • -r : Tas norāda, ka tiks lejupielādēta visa vietne.
  • -k : Tas norāda, ka lejupielādētās vietnes saites tiks pārveidotas, lai tās varētu redzēt datoros bez interneta.

Tagad lietas kļūst sarežģītas, ja vietnes administrators mums to apgrūtina ...

Kādi ierobežojumi varētu pastāvēt?

Visbiežāk mēs varam atrast, ka piekļuve vietnei ir atļauta tikai tad, ja jums ir atzīts UserAgent. Citiem vārdiem sakot, vietne atpazīs, ka UserAgent, kas lejupielādē tik daudz lapu, nav no "parastajām" lapām, un tāpēc tā aizvērs piekļuvi.

Arī caur robots.txt failu jūs varat norādīt šo wget (piemēram, ķekars vairāk līdzīgu lietotņu) Jūs nevarēsiet lejupielādēt, kā klients vēlas, labi ... labi, vietnes administrators to vēlas, periods 😀

Kā apiet šos ierobežojumus?

Pirmajā gadījumā mēs izveidosim UserAgent, lai wget, mēs to varam izdarīt ar iespēju -Lietotāja aģents, šeit es jums parādīšu, kā:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Tagad, lai apietu robots.txt, vienkārši izslēdziet šo failu, tas ir, ļaujiet wget lejupielādēt vietni un neuztraucieties, ko saka robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = izslēgts

Tagad ... ir arī citas iespējas vai parametri, kurus mēs varam izmantot, lai vēl vairāk maldinātu vietni, piemēram, norādiet, ka mēs ievadām vietni no Google, šeit es atstāju pēdējo rindu ar visu:

wget --header = "Pieņemt: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Vietnes sākumā nav obligāti jābūt http: // www, tā var būt tieši viena: http: // kā, piemēram, šī ģeometrija Dash

Vai tas ir labi to darīt?

Tas ir atkarīgs ... jums tas vienmēr ir jāredz no abiem viedokļiem, no vietnes administratora, bet arī no lasītāja puses.

No vienas puses, man kā administratoram negribētos, ka viņi tā paņem manas vietnes HTML kopiju, tā ir tiešsaistē, nevis prieka pēc, visu izbaudīšanai ... mūsu mērķis ir, lai jums būtu pieejams interesants saturs, kuru jūs varētu uzzināt.

Bet, no otras puses ... ir lietotāji, kuriem mājās nav interneta, kuri vēlētos, lai būtu visa sadaļa Apmācības, ko mēs esam šeit ievietojuši ... Es viņu ievietoju viņu vietā (patiesībā esmu, jo mājās man nav interneta), un nav patīkami atrasties datorā, rodas problēmas vai vēlaties kaut ko darīt un nevarat, jo jums nav piekļuves tīklu tīklam.

Neatkarīgi no tā, vai tas ir pareizi vai nepareizi, izlemj katrs administrators, katra realitāte ... mani visvairāk uztrauc resursu patēriņš, ko wget rada serverī, taču ar labu kešatmiņas sistēmu tam vajadzētu būt pietiekamam, lai serveris to nedarītu. ciest.

internets

Secinājumi

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

Nu nekas, es ceru, ka tas būs noderīgi ... Sveiciens


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.

  1.   3000 teica

    Interesants padoms. Es nezināju, ka tu to vari.

  2.   Emmanuel teica

    Tas ir tieši tas, kas ar mani notika divreiz, un tas noteikti notika tā dēļ. Lai gan tieši ātruma apsvērumu dēļ (mājas vs universitāte) es gribēju piekļūt saturam šādā veidā. 😛
    Paldies par padomu. Sveicieni.

  3.   Gerardo teica

    Lieliski piemērots tiem no mums, kuriem nav interneta. Noteikti labas konsultācijas.

  4.   Kvinoto teica

    Ļoti interesants raksts.
    Jautājums: kā to var izdarīt https vietnēm?
    Kur ir nepieciešams autentificēties, izmantojot lietotājvārdu un paroli, un arī liela daļa vietnes ir rakstīta Java valodā?
    Sveiciens un paldies

  5.   Gelibasijs teica

    un kur tiek saglabātas lejupielādes?

    1.    Gelibasijs teica

      Es pats sev atbildu: personīgajā mapē. Bet tagad ir jautājums ... vai jūs varat kaut kā pateikt viņam, kur lejupielādēt saturu?

      graciozs

      1.    Daniel teica

        Es domāju, ka vispirms piekļūstat mapei, kurā vēlaties to saglabāt, un pēc tam palaižat wget

  6.   cristian teica

    vaicājums ... un būs kaut kas līdzīgs datu bāzes "klonēšanai"

  7.   xphnx teica

    Man ir ziņkārība, vai jūs saņemat naudu par šo saišu ievietošanu mikrorajonu tīklos?

  8.   Ruperts teica

    Svētīgs wget ... tā es savos cūku laikos xD lejupielādēju daudz pornogrāfijas

  9.   alunādo teica

    labs padoms. Paldies

  10.   NULL teica

    Ļoti labi, man patika daļa par ierobežojumu apiešanu.

  11.   Franz teica

    Paldies par šo dārgakmeni:
    wget –header = »Pieņemt: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = izslēgti

    wget –header = »Pieņemt: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = izslēgti

    wget –header = »Pieņemt: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = izslēgti

  12.   Palomares teica

    Ļoti interesanti.

  13.   Oskars Meža teica

    wget ir viens no šiem īpaši jaudīgajiem rīkiem, ar nelielu termināļa programmēšanu jūs varat izveidot savu google stila robotu, lai sāktu lejupielādēt lapu saturu un uzglabāt to savā datu bāzē, un vēlāk dariet visu, ko vēlaties, izmantojot šos datus.

  14.   Karloss G teica

    Šis rīks man šķiet ļoti interesants, es nekad nebiju pievērsis uzmanību tā parametriem, es vēlētos uzzināt, vai jūs varat lejupielādēt saturu no lapas «X», kurā jums jāpiesakās, un vai tas atrodas kaut kur šajā vietnē « X "vai ir kāds video, vai es to arī lejupielādētu, pat ja tas pieder citam CDN nekā" X "vietnei?

    Ja tas būtu iespējams, kā vietne aizsargā pret šādu rīku?

    Sveicieni!

  15.   Ēriks Zanardi teica

    Ar labunakti:

    Rakstu jums uz konsultāciju. Es lejupielādēju no lapas ar šī raksta pēdējo komandu, gandrīz 300 MB informācijas .. faili .swf, .js, .html no lapas http://www.netacad.com/es ar savu lietotāju no neliela kursa, kuru es veicu Maracay, Venecuēlā.

    Mans jautājums ir ... Vai būs iespējams redzēt flash animācijas?

    Es ievadu “Globālā konfigurācija”, un opcijas, kuras tajā nav redzamas, neļauj man konfigurēt.

    Es novērtēju jebkuru atbildi.

    Paldies jau iepriekš!

    1.    ADX teica

      Man ir tāda pati informācija, .swf tiek lejupielādēti puse, ja jums izdodas to izlaist, dalieties ar mani. Iepriekšējā reizē es izmantoju zirnekli, lai iegūtu visas netacad saites, taču joprojām .swf nebeidz lejupielādēt, kā vajadzētu

  16.   alehandro.hernandezs teica

    ļoti labi !!! Paldies.

  17.   anekdotes teica

    Sveiki, paldies par jūsu tuto. Es mēģinu lejupielādēt emuāru, kurā esmu uzaicināts, ar paroli, lai es to varētu lasīt no mājām bez savienojuma. Es izmantoju šo programmu, un, protams, man ir emuāra parole (wordpress), bet es nezinu, kā rīkoties tālāk. Vai jūs varētu man parādīt?
    Paldies jau iepriekš un ar cieņu!

  18.   Fran teica

    cik lielisks ieraksts !!!

  19.   Santjago teica

    lieliski, tas man ir daudz kalpojis

  20.   Fran teica

    Esmu pieteicies vietnē ar iegultiem vimeo videoklipiem, un tos nekādi nevar lejupielādēt. Šķiet, it kā vimeo tos aizsargātu. Kādas idejas??