Çfarë është wget?
Asgjë më mirë se wikipedia për të shpjeguar se çfarë përbëhet nga ky mjet:
GNU Wget është një mjet i softuerit të lirë që lejon shkarkimin e përmbajtjes nga serverat e internetit në një mënyrë të thjeshtë. Emri i saj rrjedh nga World Wide Web (w), dhe nga "merrni" (në anglisht merrni), kjo do të thotë: merrni nga WWW.
Aktualisht ajo mbështet shkarkime duke përdorur protokollet HTTP, HTTPS dhe FTP.
Ndër tiparet më të shquara që ofron wget ekziston mundësia e shkarkimit të lehtë të pasqyrave komplekse në mënyrë rekursive, shndërrimi i lidhjeve për të shfaqur përmbajtjen HTML në nivel lokal, mbështetje për përfaqësuesit ...
De wget hemos hablado ya bastante aquí en DesdeLinux. Në fakt ya Ne kishim parë se si të shkarkonim një faqe të plotë në internet me wget, problemi është që në ditët e sotme administratorët nuk lejojnë gjithkënd që të shkarkojë të gjithë uebfaqen e tyre ashtu, nuk është diçka që atyre u pëlqen vërtet ... dhe, padyshim që unë e kuptoj. Faqja është atje në internet për ta konsultuar atë, lexuesi hyn në përmbajtjen me interes dhe administratori i faqes përfiton mirë financiarisht (përmes reklamave), të tilla si vizitat, etj. Nëse lexuesi shkarkon faqen në kompjuterin e tij, ai nuk do të duhet të shkojë në internet për të konsultuar një postim të kaluar.
Për të shkarkuar një faqe me wget është aq e thjeshtë sa:
wget -r -k http://www.sitio.com
- -r : Kjo tregon që e gjithë faqja në internet do të shkarkohet.
- -k : Kjo tregon që lidhjet e faqes së shkarkuar do të konvertohen për t'u parë në kompjuterë pa internet.
Tani, gjërat ndërlikohen kur administratori i faqes na e bën të vështirë ...
Çfarë kufizimesh mund të ekzistojnë?
Më e zakonshmja që mund të gjejmë është se qasja në sit lejohet vetëm nëse keni një UserAgent të njohur. Me fjalë të tjera, faqja do të pranojë që UserAgent që po shkarkon kaq shumë faqe nuk është një nga ato "normale" dhe për këtë arsye do të mbyllë hyrjen.
Gjithashtu përmes skedarit robots.txt mund të specifikoni që wget (si një bandë më shumë aplikacione të ngjashme) Ju nuk do të jeni në gjendje të shkarkoni siç dëshiron klienti, mirë ... mirë, administratori i faqes e dëshiron atë, periudha
Si të anashkalohen këto kufizime?
Për rastin e parë, ne do të krijojmë një UserAgent për të wget, ne mund ta bëjmë këtë me opsionin –Agjent-përdorues, këtu unë ju tregoj se si:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Tani, për të kaluar robots.txt, thjesht përjashtoni atë skedar, domethënë, lini wget të shkarkojë faqen dhe mos u interesoni se çfarë thotë robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = joaktiv
Tani ... ka mundësi ose parametra të tjerë që mund t'i përdorim për të mashtruar edhe më shumë sitin, për shembull, tregojnë se ne hyjmë në sit nga Google, këtu unë lë vijën përfundimtare me gjithçka:
wget --header = "Prano: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referues = http: / /www.google.com -r http://www.site.com -e robotë = jashtë -k
A është mirë ta bësh këtë?
Kjo varet ... gjithmonë duhet ta shikoni nga të dy këndvështrimet, nga administratori i faqes, por edhe nga lexuesi.
Nga njëra anë, si administrator, nuk do të doja që ata të merrnin një kopje HTML të faqes time ashtu, është këtu në internet jo për kënaqësi, për kënaqësinë e të gjithëve ... qëllimi ynë është që të kemi përmbajtje interesante në dispozicion për ju, që ju mund të mësoni.
Por, nga ana tjetër ... ka përdorues që nuk kanë internet në shtëpi, të cilët do të dëshironin të kishin të gjithë seksionin e Tutorials që kemi vendosur këtu ... Unë e vendos veten në vendin e tyre (ne fakt jam, sepse ne shtepi nuk kam internet) dhe nuk është e këndshme të jesh në kompjuter, të kesh një problem ose të duash të bësh diçka dhe të mos jesh në gjendje sepse nuk ke qasje në rrjetin e rrjeteve.
Nëse është e drejtë apo e gabuar varet nga secili administrator, realiteti i secilit ... ajo që do të shqetësonte më shumë do të ishte konsumi i burimeve që shkakton wget në server, por me një sistem të mirë cache duhet të jetë i mjaftueshëm për serverin jo vuaj
Konkluzione
Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.
Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉
Epo asgjë, shpresoj të jetë e dobishme ... Përshëndetje
Këshillë interesante. Nuk e dija që mund ta bësh atë.
Expressshtë shprehimisht ajo që më kishte ndodhur dy herë, dhe sigurisht që ishte për shkak të saj. Megjithëse, ishte për arsye shpejtësie (shtëpi vs universitet) që unë doja të hyja në përmbajtjen në atë mënyrë. 😛
Faleminderit për këshillën. Të fala.
E shkëlqyeshme për ne që nuk kemi internet. Sigurisht mësime të mira.
Artikull shumë interesant.
Pyetje: si mund të bëhet për faqet https?
Ku kërkohet të vërtetohet me anë të emrit të përdoruesit dhe fjalëkalimit dhe gjithashtu pjesa më e madhe e faqes është e shkruar në java?
Pershendetje dhe faleminderit
dhe ku ruhen shkarkimet?
Unë i përgjigjem vetes: në dosjen personale. Por tani pyetja është ... a mund të tregoni disi se ku ta shkarkoni përmbajtjen?
Faleminderit
Unë mendoj se ju së pari hyni në dosjen ku dëshironi ta ruani dhe pastaj drejtoni wget
pyetje ... dhe do të ketë diçka si kjo për të "klonuar" një bazë të të dhënave
Kam një kuriozitet, a merrni para për vendosjen e atyre lidhjeve në rrjetet e mikro-niches?
Wget e bekuar ... kështu shkarkova shumë porno në ditët e mia të derrave xD
bakshish te mire Faleminderit
Shumë mirë, më pëlqeu pjesa rreth anashkalimit të kufizimeve.
Faleminderit për atë perlë:
wget –header = »Prano: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referues = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotë = joaktiv
wget –header = »Prano: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referues = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robotë = joaktiv
wget –header = »Prano: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referues = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotë = joaktiv
Shumë interesante.
wget është një nga ato mjete ultra të fuqishme, me pak programim terminal mund të krijoni një robot tuaj të stilit google që të fillojë të shkarkojë përmbajtjen e faqeve dhe ta ruajë atë në bazën tuaj të të dhënave dhe të bëni çfarë të doni më vonë me ato të dhëna.
Më duket shumë interesante ky mjet, nuk i kisha kushtuar kurrë vëmendje parametrave të tij, do të doja të dija nëse mund të shkarkoni përmbajtje nga një faqe «X» të cilën duhet të regjistroheni për të hyrë, dhe nëse është diku në këtë sit «X» a ka ndonjë video, a do ta shkarkoja edhe nëse i përket një CDN tjetër nga faqja «X»?
Nëse kjo do të ishte e mundur, si mbron një sit nga një mjet i tillë?
Përshëndetje!
Naten e mire:
Unë po ju shkruaj për një konsultë. Kam shkarkuar me komandën e fundit të këtij artikulli, pothuajse 300 MB informacione. Skedarët .swf, .js, .html, nga faqja http://www.netacad.com/es me përdoruesin tim nga një kurs i vogël që bëra në Maracay, Venezuelë.
Pyetja ime është… A do të jetë e mundur të shohim animacionet flash?
Unë hyj në "Konfigurimin Global" dhe opsionet që tregon asnjë nuk më lejojnë të konfiguroj.
Vlerësoj çdo përgjigje.
Thanks in advance!
Unë kam të njëjtin detaj, .swf janë shkarkuar gjysma, nëse arrini ta kaloni, më ndani me informacione. Ajo që bëra provën e fundit ishte të përdor një merimangë për të marrë të gjitha lidhjet netacad, por prapë .swf nuk përfundon me shkarkimin siç duhet
shume mire !!! Faleminderit.
Përshëndetje, faleminderit për tuto. Mundohem të shkarkoj një blog në të cilin jam i ftuar, me një fjalëkalim, në mënyrë që ta lexoj nga shtëpia pa ndonjë lidhje. Unë e përdor këtë program, dhe padyshim, unë kam fjalëkalimin e blogut (wordpress), por nuk di si të veproj. Mund të më tregoni?
Faleminderit paraprakisht dhe përshëndetjet më të mira!
çfarë postimi të shkëlqyeshëm !!!
shkëlqyeshëm më ka shërbyer shumë
Jam regjistruar në një faqe në internet me video të ngulitura vimeo dhe nuk ka asnjë mënyrë për t'i shkarkuar .. duket sikur vimeo i ka të mbrojtura. Ndonje ide??