Shkarkoni një faqe të tërë me wget edhe nëse ka kufizime

Çfarë është wget?

Asgjë më mirë se wikipedia për të shpjeguar se çfarë përbëhet nga ky mjet:

GNU Wget është një mjet i softuerit të lirë që lejon shkarkimin e përmbajtjes nga serverat e internetit në një mënyrë të thjeshtë. Emri i saj rrjedh nga World Wide Web (w), dhe nga "merrni" (në anglisht merrni), kjo do të thotë: merrni nga WWW.

Aktualisht ajo mbështet shkarkime duke përdorur protokollet HTTP, HTTPS dhe FTP.

Ndër tiparet më të shquara që ofron wget ekziston mundësia e shkarkimit të lehtë të pasqyrave komplekse në mënyrë rekursive, shndërrimi i lidhjeve për të shfaqur përmbajtjen HTML në nivel lokal, mbështetje për përfaqësuesit ...

De wget ne tashmë kemi folur mjaftueshëm këtu në DesdeLinux. Në fakt ya Ne kishim parë se si të shkarkonim një faqe të plotë në internet me wget, problemi është që në ditët e sotme administratorët nuk lejojnë gjithkënd që të shkarkojë të gjithë uebfaqen e tyre ashtu, nuk është diçka që atyre u pëlqen vërtet ... dhe, padyshim që unë e kuptoj. Faqja është atje në internet për ta konsultuar atë, lexuesi hyn në përmbajtjen me interes dhe administratori i faqes përfiton mirë financiarisht (përmes reklamave), të tilla si vizitat, etj. Nëse lexuesi shkarkon faqen në kompjuterin e tij, ai nuk do të duhet të shkojë në internet për të konsultuar një postim të kaluar.

Për të shkarkuar një faqe me wget është aq e thjeshtë sa:

wget -r -k http://www.sitio.com

  • -r : Kjo tregon që e gjithë faqja në internet do të shkarkohet.
  • -k : Kjo tregon që lidhjet e faqes së shkarkuar do të konvertohen për t'u parë në kompjuterë pa internet.

Tani, gjërat ndërlikohen kur administratori i faqes na e bën të vështirë ...

Çfarë kufizimesh mund të ekzistojnë?

Më e zakonshmja që mund të gjejmë është se qasja në sit lejohet vetëm nëse keni një UserAgent të njohur. Me fjalë të tjera, faqja do të pranojë që UserAgent që po shkarkon kaq shumë faqe nuk është një nga ato "normale" dhe për këtë arsye do të mbyllë hyrjen.

Gjithashtu përmes skedarit robots.txt mund të specifikoni që wget (si një bandë më shumë aplikacione të ngjashme) Ju nuk do të jeni në gjendje të shkarkoni siç dëshiron klienti, mirë ... mirë, administratori i faqes e dëshiron atë, periudha

Si të anashkalohen këto kufizime?

Për rastin e parë, ne do të krijojmë një UserAgent për të wget, ne mund ta bëjmë këtë me opsionin –Agjent-përdorues, këtu unë ju tregoj se si:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Tani, për të kaluar robots.txt, thjesht përjashtoni atë skedar, domethënë, lini wget të shkarkojë faqen dhe mos u interesoni se çfarë thotë robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = joaktiv

Tani ... ka mundësi ose parametra të tjerë që mund t'i përdorim për të mashtruar edhe më shumë sitin, për shembull, tregojnë se ne hyjmë në sit nga Google, këtu unë lë vijën përfundimtare me gjithçka:

wget --header = "Prano: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referues = http: / /www.google.com -r http://www.site.com -e robotë = jashtë -k

Nuk është e detyrueshme që faqja të përmbajë http: // www në fillim, mund të jetë një direkt http: // si për shembull kjo Gjeometria Dash

A është mirë ta bësh këtë?

Kjo varet ... gjithmonë duhet ta shikoni nga të dy këndvështrimet, nga administratori i faqes, por edhe nga lexuesi.

Nga njëra anë, si administrator, nuk do të doja që ata të merrnin një kopje HTML të faqes time ashtu, është këtu në internet jo për kënaqësi, për kënaqësinë e të gjithëve ... qëllimi ynë është që të kemi përmbajtje interesante në dispozicion për ju, që ju mund të mësoni.

Por, nga ana tjetër ... ka përdorues që nuk kanë internet në shtëpi, të cilët do të dëshironin të kishin të gjithë seksionin e Tutorials që kemi vendosur këtu ... Unë e vendos veten në vendin e tyre (ne fakt jam, sepse ne shtepi nuk kam internet) dhe nuk është e këndshme të jesh në kompjuter, të kesh një problem ose të duash të bësh diçka dhe të mos jesh në gjendje sepse nuk ke qasje në rrjetin e rrjeteve.

Nëse është e drejtë apo e gabuar varet nga secili administrator, realiteti i secilit ... ajo që do të shqetësonte më shumë do të ishte konsumi i burimeve që shkakton wget në server, por me një sistem të mirë cache duhet të jetë i mjaftueshëm për serverin jo vuaj

internet

Konkluzione

Unë ju kërkoj të mos filloni të shkarkoni nga Linux tani, HAHAHA! Për shembull, e dashura ime më kërkoi të shkarkoja disa mashtrime Geometry Dash (diçka si Geometry Dash Cheats), unë nuk do të shkarkoj të gjithë uebfaqen, por thjesht hap faqen e dëshiruar dhe do ta ruaj atë në PDF ose HTML ose diçka të tillë. Është ajo që unë do të ju rekomandoj

Nëse keni një tutorial DesdeLinux që dëshironi ta ruani, ruani atë në faqeshënuesit tuaj, të tilla si HTML ose PDF ... por, për një ose dy udhëzime nuk është e nevojshme të gjeneroni trafik dhe konsum të tepruar në server

Epo asgjë, shpresoj të jetë e dobishme ... Përshëndetje


Përmbajtja e artikullit i përmbahet parimeve tona të etika editoriale. Për të raportuar një gabim klikoni këtu.

23 komente, lini tuajën

Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.

  1.   eliotime3000 dijo

    Këshillë interesante. Nuk e dija që mund ta bësh atë.

  2.   Emmanuel dijo

    Expressshtë shprehimisht ajo që më kishte ndodhur dy herë, dhe sigurisht që ishte për shkak të saj. Megjithëse, ishte për arsye shpejtësie (shtëpi vs universitet) që unë doja të hyja në përmbajtjen në atë mënyrë. 😛
    Faleminderit për këshillën. Të fala.

  3.   Gerardo dijo

    E shkëlqyeshme për ne që nuk kemi internet. Sigurisht mësime të mira.

  4.   Kuinoto dijo

    Artikull shumë interesant.
    Pyetje: si mund të bëhet për faqet https?
    Ku kërkohet të vërtetohet me anë të emrit të përdoruesit dhe fjalëkalimit dhe gjithashtu pjesa më e madhe e faqes është e shkruar në java?
    Pershendetje dhe faleminderit

  5.   Xhelibiumi dijo

    dhe ku ruhen shkarkimet?

    1.    Xhelibiumi dijo

      Unë i përgjigjem vetes: në dosjen personale. Por tani pyetja është ... a mund të tregoni disi se ku ta shkarkoni përmbajtjen?

      Faleminderit

      1.    Daniel dijo

        Unë mendoj se ju së pari hyni në dosjen ku dëshironi ta ruani dhe pastaj drejtoni wget

  6.   cristian dijo

    pyetje ... dhe do të ketë diçka si kjo për të "klonuar" një bazë të të dhënave

  7.   xphnx dijo

    Kam një kuriozitet, a merrni para për vendosjen e atyre lidhjeve në rrjetet e mikro-niches?

  8.   Rupert dijo

    Wget e bekuar ... kështu shkarkova shumë porno në ditët e mia të derrave xD

  9.   hënë dijo

    bakshish te mire Faleminderit

  10.   I PAVLEFSHËM dijo

    Shumë mirë, më pëlqeu pjesa rreth anashkalimit të kufizimeve.

  11.   Franz dijo

    Faleminderit për atë perlë:
    wget –header = »Prano: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referues = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotë = joaktiv

    wget –header = »Prano: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referues = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robotë = joaktiv

    wget –header = »Prano: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referues = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotë = joaktiv

  12.   Pëllumbave dijo

    Shumë interesante.

  13.   oscar meza dijo

    wget është një nga ato mjete ultra të fuqishme, me pak programim terminal mund të krijoni një robot tuaj të stilit google që të fillojë të shkarkojë përmbajtjen e faqeve dhe ta ruajë atë në bazën tuaj të të dhënave dhe të bëni çfarë të doni më vonë me ato të dhëna.

  14.   Charles G. dijo

    Më duket shumë interesante ky mjet, nuk i kisha kushtuar kurrë vëmendje parametrave të tij, do të doja të dija nëse mund të shkarkoni përmbajtje nga një faqe «X» të cilën duhet të regjistroheni për të hyrë, dhe nëse është diku në këtë sit «X» a ka ndonjë video, a do ta shkarkoja edhe nëse i përket një CDN tjetër nga faqja «X»?

    Nëse kjo do të ishte e mundur, si mbron një sit nga një mjet i tillë?

    Përshëndetje!

  15.   Erick zanardi dijo

    Naten e mire:

    Unë po ju shkruaj për një konsultë. Kam shkarkuar me komandën e fundit të këtij artikulli, pothuajse 300 MB informacione. Skedarët .swf, .js, .html, nga faqja http://www.netacad.com/es me përdoruesin tim nga një kurs i vogël që bëra në Maracay, Venezuelë.

    Pyetja ime është… A do të jetë e mundur të shohim animacionet flash?

    Unë hyj në "Konfigurimin Global" dhe opsionet që tregon asnjë nuk më lejojnë të konfiguroj.

    Vlerësoj çdo përgjigje.

    Thanks in advance!

    1.    ADX dijo

      Unë kam të njëjtin detaj, .swf janë shkarkuar gjysma, nëse arrini ta kaloni, më ndani me informacione. Ajo që bëra provën e fundit ishte të përdor një merimangë për të marrë të gjitha lidhjet netacad, por prapë .swf nuk përfundon me shkarkimin siç duhet

  16.   aleksandër.hernandez dijo

    shume mire !!! Faleminderit.

  17.   Ann dijo

    Përshëndetje, faleminderit për tuto. Mundohem të shkarkoj një blog në të cilin jam i ftuar, me një fjalëkalim, në mënyrë që ta lexoj nga shtëpia pa ndonjë lidhje. Unë e përdor këtë program, dhe padyshim, unë kam fjalëkalimin e blogut (wordpress), por nuk di si të veproj. Mund të më tregoni?
    Faleminderit paraprakisht dhe përshëndetjet më të mira!

  18.   Fran dijo

    çfarë postimi të shkëlqyeshëm !!!

  19.   Santiago dijo

    shkëlqyeshëm më ka shërbyer shumë

  20.   Fran dijo

    Jam regjistruar në një faqe në internet me video të ngulitura vimeo dhe nuk ka asnjë mënyrë për t'i shkarkuar .. duket sikur vimeo i ka të mbrojtura. Ndonje ide??