Lataa koko sivusto wgetillä, vaikka rajoituksia olisikin

Mikä on wget?

Mikään ei ole parempi kuin wikipedia selittää mistä tämä työkalu koostuu:

GNU Wget on ilmainen ohjelmistotyökalu, joka mahdollistaa sisällön lataamisen verkkopalvelimilta yksinkertaisella tavalla. Sen nimi on peräisin World Wide Webistä (w), ja "get" (englanniksi get) tarkoittaa: hanki WWW: stä.

Tällä hetkellä se tukee latauksia käyttämällä HTTP-, HTTPS- ja FTP-protokollia.

Yksi sen upeimmista ominaisuuksista wget monimutkaisten peilien rekursiivinen lataaminen on helppoa, linkkien muuntaminen HTML-sisällön näyttämiseksi paikallisesti, välityspalvelinten tuki ...

De wget hemos hablado ya bastante aquí en DesdeLinux. Itse asiassa ya Olimme nähneet, kuinka voit ladata kokonaisen verkkosivuston wgetillä, ongelmana on, että nykyään järjestelmänvalvojat eivät aina salli kenenkään ladata koko verkkosivustoaan juuri sillä tavalla, se ei ole asia, josta he todella pitävät ... ja tietysti ymmärrän. Sivusto on Internetissä hakemassa sitä, lukija pääsee kiinnostavaan sisältöön ja sivuston ylläpitäjä hyötyy taloudellisesti (mainonnasta), kuten vierailuista jne. Jos lukija lataa sivuston tietokoneelleen, hänen ei tarvitse mennä verkkoon tutustumaan aikaisempaan viestiin.

Sivuston lataaminen wgetillä on niin yksinkertaista kuin:

wget -r -k http://www.sitio.com

  • -r : Tämä tarkoittaa, että koko verkkosivusto ladataan.
  • -k : Tämä tarkoittaa, että ladatun sivuston linkit muunnetaan näkyviksi tietokoneissa, joissa ei ole Internetiä.

Nyt asiat monimutkaistuvat, kun sivuston ylläpitäjä vaikeuttaa meitä ...

Mitä rajoituksia voi olla?

Yleisin, jonka voimme löytää, on, että pääsy sivustolle on sallittua vain, jos sinulla on tunnustettu UserAgent. Toisin sanoen, sivusto tunnistaa, että UserAgent, joka lataa niin monta sivua, ei kuulu "tavallisiin" sivuihin ja sulkee sen vuoksi pääsyn.

Myös robots.txt-tiedoston kautta voit määrittää kyseisen wgetin (kuten joukko muita vastaavia sovelluksia) Et voi ladata kuten asiakas haluaa. No, sivuston ylläpitäjä haluaa sen, piste 😀

Kuinka kiertää näitä rajoituksia?

Ensimmäisessä tapauksessa perustetaan UserAgent wgetiin, voimme tehdä tämän vaihtoehdolla -Käyttäjä agentti, tässä näytän sinulle miten:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Nyt kiertääksesi robots.txt-tiedostoa, sulje vain tämä tiedosto, ts. Anna wgetin ladata sivusto ja välitä mitä robots.txt sanoo:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = pois päältä

Nyt ... on olemassa muita vaihtoehtoja tai parametreja, joita voimme käyttää sivuston harhaanjohtamiseen, esimerkiksi osoittamaan, että pääsemme sivustoon Googlesta, tässä jätän kaiken viimeisen rivin:

wget --header = "Hyväksy: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Ei ole pakollista, että sivuston alussa on http: // www, se voi olla suoraan http: // kuten esimerkiksi tämä geometry Dash

Onko ok tehdä tämä?

Se riippuu ... sinun täytyy aina nähdä se molemmista näkökulmista, sivuston ylläpitäjältä mutta myös lukijalta.

Yhtäältä järjestelmänvalvojana en halua, että he ottavat HTML-kopion sivustostani aivan kuten, se on täällä verkossa ei huvin vuoksi, kaikkien nauttimiseksi ... Tavoitteenamme on saada mielenkiintoinen sisältö, jonka voit oppia.

Mutta toisaalta ... on käyttäjiä, joilla ei ole internetiä kotona, jotka haluaisivat, että koko Oppaat-osio, jonka olemme täällä laittaneet, laitan itseni heidän tilalleen (itse asiassa olen, koska kotona minulla ei ole internetiä) ja ei ole miellyttävää olla tietokoneella, sinulla on ongelmia tai haluat tehdä jotain, enkä voi, koska sinulla ei ole pääsyä verkkoverkkoon.

Onko se oikea vai väärä, kukin pääkäyttäjä, jokaisen todellisuus ... eniten huolestuttaisi minua resurssien kulutus, jonka wget aiheuttaa palvelimelle, mutta hyvällä välimuistijärjestelmällä sen pitäisi riittää palvelin ei kärsi.

Internet

Päätelmät

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

Ei mitään, toivottavasti siitä on hyötyä ... Terveisiä


23 kommenttia, jätä omasi

Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.

  1.   eliotime3000 dijo

    Mielenkiintoinen vinkki. En tiennyt, että voit tehdä sen.

  2.   Emmanuel dijo

    Se on nimenomaisesti tapahtunut minulle kahdesti, ja se johtui varmasti siitä. Vaikkakin nopeussyistä (koti tai yliopisto) halusin käyttää sisältöä tällä tavalla. 😛
    Kiitos neuvoista. Terveiset.

  3.   Gerardo dijo

    Erinomainen niille meistä, joilla ei ole Internetiä. Varmasti hyvät opetusohjelmat.

  4.   Quinotto dijo

    Erittäin mielenkiintoinen artikkeli.
    Kysymys: miten se voidaan tehdä https-sivustoille?
    Missä vaaditaan todentaminen käyttäjänimellä ja salasanalla, ja myös suuri osa sivustosta on kirjoitettu Java-muodossa?
    Terveisiä ja kiitoksia

  5.   Gelibassium dijo

    ja mihin lataukset tallennetaan?

    1.    Gelibassium dijo

      Vastaan ​​itselleni: henkilökohtaisessa kansiossa. Mutta nyt on kysymys ... voitko jotenkin kertoa hänelle, mistä sisältö ladataan?

      Kiitos

      1.    Daniel dijo

        Luulen, että käytät ensin kansiota, johon haluat tallentaa, ja sitten suoritat wgetin

  6.   Cristian dijo

    kysely ... ja siellä on jotain tällaista "kloonata" tietokanta

  7.   xphnx dijo

    Minulla on uteliaisuus, saitko rahaa näiden linkkien sijoittamisesta pienikokoisiin verkkoihin?

  8.   Rupert dijo

    Siunattu wget ... näin latain paljon pornoa sianpäivinäni xD

  9.   unelmoiva dijo

    hyvä vinkki. Kiitos

  10.   NULL dijo

    Erittäin hyvä, pidin rajoitusten kiertämistä koskevasta osasta.

  11.   Franz dijo

    Kiitos helmi:
    wget –header = »Hyväksy: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotit = pois päältä

    wget –header = »Hyväksy: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robotit = pois päältä

    wget –header = »Hyväksy: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotit = pois päältä

  12.   Kyyhkyset dijo

    Erittäin mielenkiintoinen.

  13.   oscar meza dijo

    wget on yksi niistä erittäin tehokkaista työkaluista, jolla on vähän pääteohjelmointia, voit tehdä oman google-tyylisen robotin aloittamaan sivujen sisällön lataamisen ja tallentamisen omaan tietokantaan ja tekemään mitä haluat myöhemmin kyseisillä tiedoilla.

  14.   Carlos G. dijo

    Minusta tämä työkalu on erittäin mielenkiintoinen, en ole koskaan kiinnittänyt huomiota sen parametreihin, haluaisin tietää, onko mahdollista ladata sisältöä «X» -sivulta, johon sinun on kirjauduttava sisään, jotta pääset sisään, ja onko se jonnekin tällä sivustolla « X »onko videota, lataanko myös sen, vaikka se kuuluisikin eri CDN: ään kuin« X »-sivusto?

    Jos tämä olisi mahdollista, miten sivusto suojaa tällaiselta työkalulta?

    Tervehdys!

  15.   Erick zanardi dijo

    Hyvää yötä:

    Kirjoitan sinulle kuulemista varten. Latasin tämän artikkelin viimeisen komennon, melkein 300 Mt tietoa .. tiedostoja .swf, .js, .html, sivulta http://www.netacad.com/es käyttäjän kanssa pieneltä kurssilta, jonka tein Maracayssa, Venezuelassa.

    Kysymykseni on… Voiko flash-animaatioita nähdä?

    Annan "Yleiset määritykset", ja asetukset, joita se ei näytä, eivät salli minun määrittää.

    Arvostan kaikkia vastauksia.

    Kiitos jo etukäteen!

    1.    ADX dijo

      Minulla on sama yksityiskohta, .swf on ladattu puoliksi, jos onnistut ohittamaan sen, jaa minulle tietoja. Mitä tein viime kerralla, oli käyttää hämähäkkiä kaikkien netacad-linkkien saamiseksi, mutta silti .swf ei lopeta lataamista niin kuin pitäisi

  16.   Aleksanteri.hernandez dijo

    Oikein hyvä !!! Kiitos.

  17.   Ana dijo

    Hei, kiitos tutosta. Yritän ladata blogin, johon minut on kutsuttu, salasanalla, jotta voin lukea sitä kotoa ilman yhteyttä. Käytän tätä ohjelmaa, ja tietysti minulla on blogin salasana (wordpress), mutta en tiedä miten edetä. Voisitko näyttää minulle?
    Kiitos etukäteen ja terveisin!

  18.   Fran dijo

    kuinka hieno viesti !!!

  19.   Santiago dijo

    erinomainen se on palvellut minua paljon

  20.   Fran dijo

    Olen kirjautunut sisään verkkosivustolle, jossa on upotettuja vimeovideoita, eikä niitä voi ladata millään tavalla .. näyttää siltä, ​​että vimeo on suojannut ne. Mitään ideoita??