Apa itu wget?
Tidak ada yang lebih baik dari itu Wikipedia untuk menjelaskan terdiri dari apa alat ini:
GNU Dapatkan adalah perangkat lunak gratis yang memungkinkan pengunduhan konten dari server web dengan cara yang sederhana. Namanya berasal dari World Wide Web (w), dan dari "get" (dalam bahasa Inggris get), artinya: get from the WWW.
Saat ini mendukung unduhan menggunakan protokol HTTP, HTTPS dan FTP.
Di antara fitur paling luar biasa yang ditawarkannya wget ada kemungkinan mengunduh mirror kompleks secara rekursif dengan mudah, konversi tautan untuk menampilkan konten HTML secara lokal, dukungan untuk proxy ...
De wget kami sudah cukup berbicara di sini di DesdeLinux. Faktanya ya Kita telah melihat bagaimana mendownload website lengkap dengan wget, masalahnya adalah saat ini administrator tidak selalu mengizinkan siapapun untuk mendownload seluruh website mereka begitu saja, itu bukan sesuatu yang mereka sangat suka ... dan, jelas saya mengerti. Situs ini ada di internet untuk konsultasi, pembaca mengakses konten yang diminati dan administrator situs mendapatkan keuntungan secara finansial (melalui iklan), seperti kunjungan, dll. Jika pembaca mendownload situs ke komputer mereka, mereka tidak perlu online untuk melihat postingan sebelumnya.
Untuk mengunduh situs dengan wget sesederhana:
wget -r -k http://www.sitio.com
- -r : Ini menunjukkan bahwa seluruh situs web akan diunduh.
- -k : Ini menunjukkan bahwa tautan dari situs yang diunduh akan diubah untuk dilihat di komputer tanpa internet.
Sekarang, segalanya menjadi rumit ketika administrator situs mempersulit kami ...
Batasan apa yang mungkin ada?
Yang paling umum yang dapat kami temukan adalah bahwa akses ke situs hanya diperbolehkan jika Anda memiliki UserAgent yang dikenali. Dengan kata lain, situs akan mengenali bahwa UserAgent yang mendownload begitu banyak halaman bukanlah salah satu dari yang "normal" dan oleh karena itu akan menutup akses.
Juga melalui file robots.txt Anda dapat menentukan wget itu (menyukai lebih banyak aplikasi serupa) tidak akan dapat mengunduh sesuai keinginan klien, karena... yah, administrator situs menginginkannya seperti itu dan hanya itu 
Bagaimana cara menghindari pembatasan ini?
Untuk kasus pertama kami akan membuat UserAgent untuk wget, kami dapat melakukan ini dengan opsi -Agen pengguna, di sini saya tunjukkan caranya:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
Sekarang, untuk menyiasati robots.txt, cukup kecualikan file itu, yaitu, biarkan wget mengunduh situs dan tidak peduli apa yang dikatakan robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off
Sekarang ... ada opsi atau parameter lain yang bisa kita gunakan untuk lebih menipu situs, misalnya, menunjukkan bahwa kita masuk ke situs dari Google, di sini saya meninggalkan baris terakhir dengan semuanya:
wget --header = "Terima: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k
Apakah boleh melakukan ini?
Itu tergantung ... Anda harus selalu melihatnya dari kedua sudut pandang, dari administrator situs tetapi juga dari pembaca.
Di satu sisi, sebagai administrator, saya tidak ingin mereka mengambil salinan HTML dari situs saya begitu saja, ini ada di sini secara online bukan untuk kesenangan, untuk kesenangan semua ... tujuan kami adalah memiliki konten yang menarik tersedia, yang bisa Anda pelajari.
Tapi, di sisi lain ... ada pengguna yang tidak memiliki internet di rumah, yang ingin memiliki seluruh bagian Tutorial yang kami taruh di sini ... Saya menempatkan diri saya di tempatnya (sebenarnya saya, karena di rumah saya tidak punya internet) dan tidak menyenangkan berada di depan komputer, mengalami masalah atau ingin melakukan sesuatu dan tidak dapat melakukannya karena Anda tidak memiliki akses ke jaringan.
Apakah benar atau salah tergantung pada masing-masing administrator, realitas masing-masing ... apa yang paling mengkhawatirkan saya adalah konsumsi sumber daya yang menyebabkan wget di server, tetapi dengan sistem cache yang baik itu harus cukup untuk server tidak menderita.
Kesimpulan
Saya meminta Anda untuk tidak mulai mengunduh dari Linux sekarang, HAHAHA! Misalnya, pacar saya meminta saya untuk mengunduh beberapa cheat Geometry Dash (sesuatu seperti Geometry Dash Cheats), saya tidak akan mengunduh keseluruhan situs web tetapi hanya membuka halaman yang diinginkan dan menyimpannya ke PDF atau HTML atau semacamnya. rekomendasikan untuk anda.
Jika Anda memiliki tutorial DesdeLinux yang ingin Anda simpan, simpanlah di bookmark Anda, sebagai HTML atau PDF... tetapi, untuk satu atau dua tutorial tidak perlu menghasilkan lalu lintas dan konsumsi berlebihan di server 
Baiklah tidak ada, semoga bermanfaat… Salam