Kas yra „wget“?
Nieko geresnio už ' paaiškinti, iš ko susideda šis įrankis:
GNU Wget yra nemokama programinės įrangos priemonė, leidžianti paprastu būdu atsisiųsti turinį iš interneto serverių. Jo pavadinimas kilęs iš „World Wide Web“ (w), o iš „get“ (angliškai get) reiškia: gauti iš WWW.
Šiuo metu ji palaiko atsisiuntimus naudojant HTTP, HTTPS ir FTP protokolus.
Tarp ryškiausių jo siūlomų funkcijų wget yra galimybė lengvai atsisiųsti sudėtingus veidrodžius rekursyviai, konvertuoti nuorodas į HTML turinio rodymą vietoje, palaikyti tarpinius serverius ...
De wget Mes jau pakankamai kalbėjome čia DesdeLinux. Iš tiesų ya Mes matėme, kaip atsisiųsti visą svetainę su „wget“, problema ta, kad šiais laikais administratoriai ne visada leidžia niekam atsisiųsti visą savo svetainę taip, kad tai tikrai ne jiems patinka ... ir, aišku, aš suprantu. Svetainė yra internete, kad būtų galima konsultuotis, skaitytojas pasiekia dominantį turinį, o svetainės administratorius finansiškai gerai (reklamuodamasis), pavyzdžiui, apsilanko ir pan. Jei skaitytojas atsisiunčia svetainę į savo kompiuterį, jam nereikės prisijungti prie interneto ir ieškoti ankstesnio įrašo.
Atsisiųsti svetainę su „wget“ yra taip paprasta:
wget -r -k http://www.sitio.com
- -r : Tai rodo, kad bus atsisiųsta visa svetainė.
- -k : Tai rodo, kad atsisiųstos svetainės nuorodos bus konvertuotos, kad būtų galima jas pamatyti kompiuteriuose be interneto.
Dabar viskas tampa sudėtinga, kai svetainės administratorius mums apsunkina ...
Kokie gali būti apribojimai?
Dažniausiai galime rasti tai, kad prieiga prie svetainės leidžiama tik tuo atveju, jei turite pripažintą „UserAgent“. Kitaip tariant, svetainė atpažins, kad „UserAgent“, atsisiunčiantis tiek puslapių, nėra vienas iš „įprastų“ ir todėl uždarys prieigą.
Taip pat per failą robots.txt galite nurodyti tą wget (kaip krūva daugiau panašių programų) Negalėsite atsisiųsti taip, kaip nori klientas, na ... na, svetainės administratorius to nori, laikotarpis 😀
Kaip apeiti šiuos apribojimus?
Pirmuoju atveju mes sukursime „UserAgent“, skirtą „wget“, tai galime padaryti naudodami parinktį -Vartotojo atstovas, čia aš jums parodysiu, kaip:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Dabar, norėdami apeiti „robots.txt“, tiesiog išskirkite tą failą, tai yra, leiskite „wget“ atsisiųsti svetainę ir nesvarbu, ką sako robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off
Dabar ... yra ir kitų variantų ar parametrų, kuriais galime dar labiau apgauti svetainę, pavyzdžiui, nurodykite, kad mes įeiname į svetainę iš „Google“, čia palieku paskutinę eilutę su viskuo:
wget --header = "Priimti: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k
Ar gerai tai daryti?
Tai priklauso ... jūs visada turite tai pamatyti iš abiejų taškų, tiek iš svetainės administratoriaus, tiek iš skaitytojo.
Viena vertus, kaip administratorius, nenorėčiau, kad jie taip imtų mano svetainės HTML kopiją, ji yra internete ne dėl malonumo, dėl malonumo visiems ... mūsų tikslas yra turėti jums prieinamą įdomų turinį, kurį galėtumėte išmokti.
Bet kita vertus ... yra vartotojų, kurie neturi interneto namuose, kurie norėtų, kad būtų visas skyrius „Pamokos“, kurį mes čia įdėjome ... Aš pasodinau save į jų vietą (iš tikrųjų esu, nes namuose neturiu interneto) ir nėra malonu būti kompiuteryje, turint problemų ar norint ką nors padaryti ir negalint, nes neturite prieigos prie tinklų tinklo.
Nesvarbu, ar jis teisingas, ar neteisingas, priklauso nuo kiekvieno administratoriaus, kiekvieno realybės... Man labiausiai rūpėtų išteklių sunaudojimas, kurį „wget“ sukelia serveryje, tačiau, turint gerą talpyklos sistemą, serveriui to turėtų pakakti. kentėti.
Išvados
Prašau jūsų nepradėti atsisiųsti dabar. DesdeLinux HA HA HA!! Pvz., mano mergina paprašė, kad atsisiųsčiau kokius nors „Geometry Dash Cheats“ (kažkas panašaus į „Geometry Dash Cheats“), aš neatsisiųsiu visos svetainės, o tiesiog atidarysiu norimą puslapį ir išsaugosiu jį PDF ar HTML ar panašiai, kad tai yra ką tau rekomenduočiau.
Jei turite pamoką DesdeLinux kurias norite išsaugoti, išsaugokite savo žymose, kaip HTML arba PDF... bet, vienai ar dviem pamokoms nebūtina generuoti perteklinio srauto ir suvartojimo serveryje 😉
Na nieko, tikiuosi, kad tai naudinga ... Sveikinimai
Įdomus patarimas. Aš nežinojau, kad tu gali tai padaryti.
Tai aiškiai nutiko man du kartus ir tikrai dėl to. Nors dėl greičio priežasčių (namai vs universitetas) norėjau tokiu būdu pasiekti turinį. 😛
Ačiū už patarimą. Pagarbiai.
Puiku tiems iš mūsų, kurie neturi interneto. Be abejo, geros pamokos.
Labai įdomus straipsnis.
Klausimas: kaip tai galima padaryti „https“ svetainėms?
Kur reikia autentifikuoti naudojant vartotojo vardą ir slaptažodį, taip pat didelė svetainės dalis yra parašyta java?
Sveikinimai ir padėkos
ir kur išsaugomi atsisiuntimai?
Atsakau sau: asmeniniame aplanke. Bet dabar kyla klausimas ... ar galite kaip nors pasakyti jam, kur atsisiųsti turinį?
dėkoju
Spėju, kad pirmiausia pasiekiate aplanką, kuriame norite jį išsaugoti, tada paleidžiate „wget“
užklausa ... ir bus kažkas panašaus į duomenų bazės „klonavimą“
Man įdomu, ar jūs gaunate pinigų už tų nuorodų pateikimą į mikrorajonų tinklus?
Palaimintas wget ... štai kaip aš parsisiunčiau daug pornografijos savo kiaulių laikais xD
geras patarimas. dėkoju
Labai gerai, man patiko dalis apie apribojimų apėjimą.
Ačiū už tą perlą:
wget –header = »Priimti: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotai = išjungti
wget –header = »Priimti: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robotai = išjungti
wget –header = »Priimti: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotai = išjungti
Labai įdomu.
„wget“ yra vienas iš tų ypač galingų įrankių, su nedideliu terminalo programavimu galite sukurti savo „Google“ stiliaus robotą, kad pradėtumėte atsisiųsti puslapių turinį ir išsaugoti jį savo duomenų bazėje, o vėliau atlikdami viską, ką norite, turėsite tuos duomenis.
Manau, kad šis įrankis yra labai įdomus, niekada nekreipiau dėmesio į jo parametrus, norėčiau sužinoti, ar galite atsisiųsti turinį iš «X» puslapio, kuriame turite būti prisijungę, ir ar jis yra kur nors šioje svetainėje « X "ar yra kokio nors vaizdo įrašo, ar aš jį atsisiųsiu, net jei jis priklauso kitam CDN nei" X "svetainė?
Jei tai būtų įmanoma, kaip svetainė apsaugo nuo tokio įrankio?
Sveiki atvykę!
Labos nakties:
Rašau jums konsultacijai. Atsisiunčiau iš paskutinės šio straipsnio komandos, beveik 300 MB informacijos .. failus .swf, .js, .html, iš puslapio http://www.netacad.com/es su savo vartotoju iš nedidelio kurso, kurį atlikau Maracay mieste, Venesueloje.
Mano klausimas ... Ar bus galima pamatyti „Flash“ animacijas?
Įvedu „Visuotinė konfigūracija“, o jos nerodomos parinktys neleidžia man sukonfigūruoti.
Vertinu bet kokį atsakymą.
Ačiū iš anksto!
Turiu tą pačią detalę, .swf atsisiunčiami pusiaukelėje, jei pavyksta praleisti, pasidalykite informacija su manimi. Tai, ką padariau paskutinį kartą, buvo naudoti vorą, norint gauti visas „Netacad“ nuorodas, bet vis tiek .swf neužbaigia atsisiuntimo, kaip turėtų
labai gerai !!! dėkoju.
Sveiki, aciu uz tavo tuto. Bandau atsisiųsti tinklaraštį, kuriame esu pakviestas, su slaptažodžiu, kad galėčiau jį skaityti iš namų be ryšio. Aš naudoju šią programą ir, žinoma, turiu tinklaraščio slaptažodį („WordPress“), bet nežinau, kaip elgtis toliau. Ar galėtum man parodyti?
Iš anksto dėkoju ir linkiu!
koks puikus postas !!!
puiku, jis man daug tarnavo
Esu prisijungęs prie svetainės su įterptais „vimeo“ vaizdo įrašais ir jų atsisiųsti niekaip negalima. Atrodo, kad „vimeo“ juos apsaugojo. Kokiu nors ideju??