Apa itu wget?
Tidak ada yang lebih baik daripada Wikipedia untuk menerangkan apa yang terdiri daripada alat ini:
GNU Wget adalah alat perisian percuma yang membolehkan memuat turun kandungan dari pelayan web dengan cara yang mudah. Namanya berasal dari World Wide Web (w), dan dari "get" (dalam bahasa Inggeris get), ini bermaksud: dapatkan dari WWW.
Pada masa ini ia menyokong muat turun menggunakan protokol HTTP, HTTPS dan FTP.
Antara ciri paling hebat yang ditawarkannya wget ada kemungkinan memuat turun cermin kompleks secara berulang, penukaran pautan untuk memaparkan kandungan HTML secara tempatan, sokongan untuk proksi ...
De wget Kita sudah cukup bercakap di sini DesdeLinux. Sebenarnya ya Kami telah melihat cara memuat turun laman web lengkap dengan wget, masalahnya ialah sekarang ini pentadbir tidak selalu membenarkan sesiapa memuat turun keseluruhan laman web mereka begitu sahaja, itu bukan sesuatu yang sangat mereka sukai ... dan, jelas saya faham. Laman web ini ada di internet untuk menelitinya, pembaca mengakses kandungan yang menarik dan pentadbir laman web mendapat manfaat dari segi kewangan (melalui pengiklanan), seperti lawatan, dll. Sekiranya pembaca memuat turun laman web ke komputer mereka, mereka tidak perlu masuk ke dalam talian untuk meninjau catatan yang lalu.
Untuk memuat turun laman web dengan wget semudah:
wget -r -k http://www.sitio.com
- -r : Ini menunjukkan bahawa keseluruhan laman web akan dimuat turun.
- -k : Ini menunjukkan bahawa pautan laman web yang dimuat turun akan ditukar untuk dapat melihatnya di komputer tanpa internet.
Sekarang, keadaan menjadi rumit apabila pentadbir laman web menyukarkan kita ...
Apa sekatan yang mungkin ada?
Yang paling umum yang kami dapati adalah bahawa akses ke laman web hanya dibenarkan jika anda mempunyai UserAgent yang dikenali. Dengan kata lain, laman web ini akan menyedari bahawa UserAgent yang memuat turun begitu banyak halaman bukanlah salah satu yang "normal" dan oleh itu akan menutup akses.
Juga melalui fail robots.txt anda boleh menentukan wget itu (seperti banyak aplikasi yang serupa) Anda tidak akan dapat memuat turun mengikut kehendak pelanggan, baik ... baik, pentadbir laman web menginginkannya, tempoh 😀
Bagaimana cara mengelakkan sekatan ini?
Untuk kes pertama, kami akan menetapkan UserAgent untuk membuat wget, kami dapat melakukan ini dengan pilihan - Ejen Pengguna, di sini saya menunjukkan kepada anda bagaimana:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Sekarang, untuk mengelilingi robots.txt, kecualikan fail itu, iaitu, biarkan memuat turun laman web dan tidak peduli apa yang dikatakan oleh robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robot = mati
Sekarang ... ada pilihan atau parameter lain yang boleh kita gunakan untuk menipu laman web lebih banyak lagi, misalnya, menunjukkan bahawa kita memasuki laman web dari Google, di sini saya meninggalkan baris terakhir dengan semuanya:
wget --header = "Terima: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robot = off -k
Adakah baik untuk melakukan ini?
Itu bergantung ... anda mesti melihatnya dari kedua-dua sudut pandangan, dari pentadbir laman web tetapi juga dari pembaca.
Di satu pihak, sebagai pentadbir, saya tidak mahu mereka mengambil salinan HTML dari laman web saya begitu sahaja, di sini dalam talian bukan untuk keseronokan, untuk kesenangan semua ... tujuan kami adalah untuk menyediakan kandungan menarik, yang boleh anda pelajari.
Tetapi, di sisi lain ... ada pengguna yang tidak mempunyai internet di rumah, yang ingin mempunyai keseluruhan bahagian Tutorial yang telah kami letakkan di sini ... Saya meletakkan diri saya di tempat mereka (sebenarnya saya, kerana di rumah saya tidak mempunyai internet) dan tidak menyenangkan berada di komputer, menghadapi masalah atau ingin melakukan sesuatu dan tidak dapat melakukannya kerana anda tidak mempunyai akses ke rangkaian rangkaian.
Sama ada betul atau salah terserah kepada setiap pentadbir, realiti masing-masing ... apa yang paling membimbangkan saya ialah penggunaan sumber yang menyebabkan masalah pada pelayan, tetapi dengan sistem cache yang baik semestinya cukup untuk pelayan tidak menderita.
Kesimpulan
Saya meminta anda untuk tidak mula memuat turun sekarang. DesdeLinux HA HA HA!! Sebagai contoh, teman wanita saya meminta saya memuat turun beberapa penipuan Geometry Dash (sesuatu seperti Geometry Dash Cheats), saya tidak akan memuat turun keseluruhan laman web, tetapi saya hanya akan membuka halaman yang dikehendaki dan menyimpannya dalam PDF atau HTML atau sesuatu, yang Ini adalah apa yang saya cadangkan kepada anda.
Jika anda mempunyai sebarang tutorial DesdeLinux yang anda ingin simpan, simpan dalam penanda halaman anda, sebagai HTML atau PDF... tetapi, untuk satu atau dua tutorial tidak perlu menjana trafik dan penggunaan yang berlebihan pada pelayan 😉
Tidak apa-apa, saya harap ia berguna ... Salam
Petua menarik. Saya tidak tahu anda boleh melakukan itu.
Ini adalah apa yang telah berlaku kepada saya dua kali, dan itu pasti disebabkan olehnya. Walaupun, kerana alasan pantas (rumah vs universiti) saya mahu mengakses kandungan dengan cara itu. 😛
Terima kasih atas nasihatnya. Salam.
Hebat bagi kita yang tidak mempunyai internet. Tentunya tutorial yang bagus.
Artikel yang sangat menarik.
Soalan: bagaimana ia dapat dilakukan untuk laman https?
Di mana ia diperlukan untuk mengesahkan dengan nama pengguna dan kata laluan dan juga sebahagian besar laman web ditulis dalam java?
Salam dan terima kasih
dan di mana muat turun disimpan?
Saya menjawab sendiri: dalam folder peribadi. Tetapi sekarang persoalannya ... bolehkah anda memberitahunya di mana untuk memuat turun kandungannya?
terima kasih
Saya rasa anda pertama kali mengakses folder di mana anda mahu menyimpannya dan kemudian anda menjalankan wget
pertanyaan ... dan akan ada yang seperti ini untuk "mengklon" pangkalan data
Saya mempunyai rasa ingin tahu, adakah anda menerima wang untuk meletakkan pautan tersebut ke laman web mikro?
Wget diberkati ... begitulah cara saya memuat turun banyak porno di babi saya xD
petua yang baik. terima kasih
Sangat baik, saya suka bahagian untuk mengelakkan sekatan.
Terima kasih untuk permata itu:
wget –header = »Terima: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robot = mati
wget –header = »Terima: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robot = mati
wget –header = »Terima: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robot = mati
Sangat menarik.
wget adalah salah satu alat yang sangat berkuasa, dengan sedikit pengaturcaraan terminal, anda boleh membuat robot gaya google anda sendiri untuk mula memuat turun kandungan halaman dan menyimpannya dalam pangkalan data anda sendiri dan melakukan apa sahaja yang anda mahukan kemudian dengan data tersebut.
Saya dapati alat ini sangat menarik, saya tidak pernah memperhatikan parameternya, saya ingin tahu apakah mungkin memuat turun kandungan dari halaman «X» yang mesti anda log masuk untuk masuk, dan jika ada di laman web ini « X "adakah video, adakah saya juga memuat turunnya walaupun milik CDN yang berbeza daripada laman" X "?
Sekiranya ini dapat dilakukan, bagaimana laman web melindungi dari alat seperti itu?
Salam!
Selamat Malam:
Saya menulis kepada anda untuk berunding. Saya memuat turun dengan arahan terakhir artikel ini, hampir 300 MB maklumat .. fail .swf, .js, .html, dari halaman http://www.netacad.com/es dengan pengguna saya dari kursus kecil yang saya lakukan di Maracay, Venezuela.
Soalan saya adalah ... Adakah mungkin untuk melihat animasi kilat?
Saya memasukkan "Konfigurasi Global" dan pilihan yang ditunjukkannya tidak membenarkan saya mengkonfigurasi.
Saya menghargai apa-apa tindak balas.
Terima kasih terlebih dahulu!
Saya mempunyai perincian yang sama, .swf dimuat turun separuh, jika anda berjaya melangkauinya, kongsi maklumat saya. Apa yang saya buat kali terakhir adalah menggunakan labah-labah untuk mendapatkan semua pautan netacad tetapi tetap .swf tidak selesai memuat turun sebagaimana mestinya
sangat bagus !!! terima kasih.
Helo, terima kasih untuk tuto anda. Saya cuba memuat turun blog di mana saya dijemput, dengan kata laluan, supaya saya dapat membacanya dari rumah tanpa sambungan. Saya menggunakan program ini, dan jelas, saya mempunyai kata laluan blog (wordpress), tetapi saya tidak tahu bagaimana untuk meneruskannya. Boleh awak tunjukkan?
Terima kasih terlebih dahulu dan salam!
apa jawatan hebat !!!
sangat baik telah banyak membantu saya
Saya log masuk ke laman web dengan video vimeo yang tersemat dan tidak ada cara untuk dimuat turun .. seolah-olah vimeo telah melindungi mereka. Ada idea ??