Kas ir wget?
Nekas labāks par Wikipedia izskaidrot, no kā sastāv šis rīks:
GNU Wget ir bezmaksas programmatūras rīks, kas vienkāršā veidā ļauj lejupielādēt saturu no tīmekļa serveriem. Tās nosaukums cēlies no globālā tīmekļa (w) un no “get” (angļu valodā get) tas nozīmē: iegūt no WWW.
Pašlaik tā atbalsta lejupielādes, izmantojot HTTP, HTTPS un FTP protokolus.
Starp izcilākajām tā piedāvātajām funkcijām wget ir iespēja ērti lejupielādēt sarežģītus spoguļus rekursīvi, pārveidot saites, lai lokāli parādītu HTML saturu, atbalstīt starpniekserverus ...
De wget hemos hablado ya bastante aquí en DesdeLinux. Patiesībā ya Mēs bijām redzējuši, kā lejupielādēt pilnu vietni ar wget, problēma ir tā, ka mūsdienās administratori ne vienmēr ļauj nevienam tā lejupielādēt visu savu vietni, tas viņiem patiešām nepatīk ... un, protams, es saprotu. Vietne atrodas internetā, lai ar to iepazītos, lasītājs piekļūst interesējošam saturam, un vietnes administrators finansiāli labi (izmantojot reklāmu) gūst labumu, piemēram, apmeklējumus utt. Ja lasītājs lejupielādē vietni savā datorā, viņam nebūs jādodas tiešsaistē, lai iepazītos ar iepriekšējo ziņu.
Vietnes lejupielāde ar wget ir tik vienkārša kā:
wget -r -k http://www.sitio.com
- -r : Tas norāda, ka tiks lejupielādēta visa vietne.
- -k : Tas norāda, ka lejupielādētās vietnes saites tiks pārveidotas, lai tās varētu redzēt datoros bez interneta.
Tagad lietas kļūst sarežģītas, ja vietnes administrators mums to apgrūtina ...
Kādi ierobežojumi varētu pastāvēt?
Visbiežāk mēs varam atrast, ka piekļuve vietnei ir atļauta tikai tad, ja jums ir atzīts UserAgent. Citiem vārdiem sakot, vietne atpazīs, ka UserAgent, kas lejupielādē tik daudz lapu, nav no "parastajām" lapām, un tāpēc tā aizvērs piekļuvi.
Arī caur robots.txt failu jūs varat norādīt šo wget (piemēram, ķekars vairāk līdzīgu lietotņu) Jūs nevarēsiet lejupielādēt, kā klients vēlas, labi ... labi, vietnes administrators to vēlas, periods 😀
Kā apiet šos ierobežojumus?
Pirmajā gadījumā mēs izveidosim UserAgent, lai wget, mēs to varam izdarīt ar iespēju -Lietotāja aģents, šeit es jums parādīšu, kā:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Tagad, lai apietu robots.txt, vienkārši izslēdziet šo failu, tas ir, ļaujiet wget lejupielādēt vietni un neuztraucieties, ko saka robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = izslēgts
Tagad ... ir arī citas iespējas vai parametri, kurus mēs varam izmantot, lai vēl vairāk maldinātu vietni, piemēram, norādiet, ka mēs ievadām vietni no Google, šeit es atstāju pēdējo rindu ar visu:
wget --header = "Pieņemt: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k
Vai tas ir labi to darīt?
Tas ir atkarīgs ... jums tas vienmēr ir jāredz no abiem viedokļiem, no vietnes administratora, bet arī no lasītāja puses.
No vienas puses, man kā administratoram negribētos, ka viņi tā paņem manas vietnes HTML kopiju, tā ir tiešsaistē, nevis prieka pēc, visu izbaudīšanai ... mūsu mērķis ir, lai jums būtu pieejams interesants saturs, kuru jūs varētu uzzināt.
Bet, no otras puses ... ir lietotāji, kuriem mājās nav interneta, kuri vēlētos, lai būtu visa sadaļa Apmācības, ko mēs esam šeit ievietojuši ... Es viņu ievietoju viņu vietā (patiesībā esmu, jo mājās man nav interneta), un nav patīkami atrasties datorā, rodas problēmas vai vēlaties kaut ko darīt un nevarat, jo jums nav piekļuves tīklu tīklam.
Neatkarīgi no tā, vai tas ir pareizi vai nepareizi, izlemj katrs administrators, katra realitāte ... mani visvairāk uztrauc resursu patēriņš, ko wget rada serverī, taču ar labu kešatmiņas sistēmu tam vajadzētu būt pietiekamam, lai serveris to nedarītu. ciest.
Secinājumi
Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.
Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉
Nu nekas, es ceru, ka tas būs noderīgi ... Sveiciens
Interesants padoms. Es nezināju, ka tu to vari.
Tas ir tieši tas, kas ar mani notika divreiz, un tas noteikti notika tā dēļ. Lai gan tieši ātruma apsvērumu dēļ (mājas vs universitāte) es gribēju piekļūt saturam šādā veidā. 😛
Paldies par padomu. Sveicieni.
Lieliski piemērots tiem no mums, kuriem nav interneta. Noteikti labas konsultācijas.
Ļoti interesants raksts.
Jautājums: kā to var izdarīt https vietnēm?
Kur ir nepieciešams autentificēties, izmantojot lietotājvārdu un paroli, un arī liela daļa vietnes ir rakstīta Java valodā?
Sveiciens un paldies
un kur tiek saglabātas lejupielādes?
Es pats sev atbildu: personīgajā mapē. Bet tagad ir jautājums ... vai jūs varat kaut kā pateikt viņam, kur lejupielādēt saturu?
graciozs
Es domāju, ka vispirms piekļūstat mapei, kurā vēlaties to saglabāt, un pēc tam palaižat wget
vaicājums ... un būs kaut kas līdzīgs datu bāzes "klonēšanai"
Man ir ziņkārība, vai jūs saņemat naudu par šo saišu ievietošanu mikrorajonu tīklos?
Svētīgs wget ... tā es savos cūku laikos xD lejupielādēju daudz pornogrāfijas
labs padoms. Paldies
Ļoti labi, man patika daļa par ierobežojumu apiešanu.
Paldies par šo dārgakmeni:
wget –header = »Pieņemt: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = izslēgti
wget –header = »Pieņemt: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e roboti = izslēgti
wget –header = »Pieņemt: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e roboti = izslēgti
Ļoti interesanti.
wget ir viens no šiem īpaši jaudīgajiem rīkiem, ar nelielu termināļa programmēšanu jūs varat izveidot savu google stila robotu, lai sāktu lejupielādēt lapu saturu un uzglabāt to savā datu bāzē, un vēlāk dariet visu, ko vēlaties, izmantojot šos datus.
Šis rīks man šķiet ļoti interesants, es nekad nebiju pievērsis uzmanību tā parametriem, es vēlētos uzzināt, vai jūs varat lejupielādēt saturu no lapas «X», kurā jums jāpiesakās, un vai tas atrodas kaut kur šajā vietnē « X "vai ir kāds video, vai es to arī lejupielādētu, pat ja tas pieder citam CDN nekā" X "vietnei?
Ja tas būtu iespējams, kā vietne aizsargā pret šādu rīku?
Sveicieni!
Ar labunakti:
Rakstu jums uz konsultāciju. Es lejupielādēju no lapas ar šī raksta pēdējo komandu, gandrīz 300 MB informācijas .. faili .swf, .js, .html no lapas http://www.netacad.com/es ar savu lietotāju no neliela kursa, kuru es veicu Maracay, Venecuēlā.
Mans jautājums ir ... Vai būs iespējams redzēt flash animācijas?
Es ievadu “Globālā konfigurācija”, un opcijas, kuras tajā nav redzamas, neļauj man konfigurēt.
Es novērtēju jebkuru atbildi.
Paldies jau iepriekš!
Man ir tāda pati informācija, .swf tiek lejupielādēti puse, ja jums izdodas to izlaist, dalieties ar mani. Iepriekšējā reizē es izmantoju zirnekli, lai iegūtu visas netacad saites, taču joprojām .swf nebeidz lejupielādēt, kā vajadzētu
ļoti labi !!! Paldies.
Sveiki, paldies par jūsu tuto. Es mēģinu lejupielādēt emuāru, kurā esmu uzaicināts, ar paroli, lai es to varētu lasīt no mājām bez savienojuma. Es izmantoju šo programmu, un, protams, man ir emuāra parole (wordpress), bet es nezinu, kā rīkoties tālāk. Vai jūs varētu man parādīt?
Paldies jau iepriekš un ar cieņu!
cik lielisks ieraksts !!!
lieliski, tas man ir daudz kalpojis
Esmu pieteicies vietnē ar iegultiem vimeo videoklipiem, un tos nekādi nevar lejupielādēt. Šķiet, it kā vimeo tos aizsargātu. Kādas idejas??