Muat turun keseluruhan laman web dengan wget walaupun terdapat sekatan

Apa itu wget?

Tidak ada yang lebih baik daripada Wikipedia untuk menerangkan apa yang terdiri daripada alat ini:

GNU Wget adalah alat perisian percuma yang membolehkan memuat turun kandungan dari pelayan web dengan cara yang mudah. Namanya berasal dari World Wide Web (w), dan dari "get" (dalam bahasa Inggeris get), ini bermaksud: dapatkan dari WWW.

Pada masa ini ia menyokong muat turun menggunakan protokol HTTP, HTTPS dan FTP.

Antara ciri paling hebat yang ditawarkannya wget ada kemungkinan memuat turun cermin kompleks secara berulang, penukaran pautan untuk memaparkan kandungan HTML secara tempatan, sokongan untuk proksi ...

De wget Kita sudah cukup bercakap di sini DesdeLinux. Sebenarnya ya Kami telah melihat cara memuat turun laman web lengkap dengan wget, masalahnya ialah sekarang ini pentadbir tidak selalu membenarkan sesiapa memuat turun keseluruhan laman web mereka begitu sahaja, itu bukan sesuatu yang sangat mereka sukai ... dan, jelas saya faham. Laman web ini ada di internet untuk menelitinya, pembaca mengakses kandungan yang menarik dan pentadbir laman web mendapat manfaat dari segi kewangan (melalui pengiklanan), seperti lawatan, dll. Sekiranya pembaca memuat turun laman web ke komputer mereka, mereka tidak perlu masuk ke dalam talian untuk meninjau catatan yang lalu.

Untuk memuat turun laman web dengan wget semudah:

wget -r -k http://www.sitio.com

  • -r : Ini menunjukkan bahawa keseluruhan laman web akan dimuat turun.
  • -k : Ini menunjukkan bahawa pautan laman web yang dimuat turun akan ditukar untuk dapat melihatnya di komputer tanpa internet.

Sekarang, keadaan menjadi rumit apabila pentadbir laman web menyukarkan kita ...

Apa sekatan yang mungkin ada?

Yang paling umum yang kami dapati adalah bahawa akses ke laman web hanya dibenarkan jika anda mempunyai UserAgent yang dikenali. Dengan kata lain, laman web ini akan menyedari bahawa UserAgent yang memuat turun begitu banyak halaman bukanlah salah satu yang "normal" dan oleh itu akan menutup akses.

Juga melalui fail robots.txt anda boleh menentukan wget itu (seperti banyak aplikasi yang serupa) Anda tidak akan dapat memuat turun mengikut kehendak pelanggan, baik ... baik, pentadbir laman web menginginkannya, tempoh 😀

Bagaimana cara mengelakkan sekatan ini?

Untuk kes pertama, kami akan menetapkan UserAgent untuk membuat wget, kami dapat melakukan ini dengan pilihan - Ejen Pengguna, di sini saya menunjukkan kepada anda bagaimana:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Sekarang, untuk mengelilingi robots.txt, kecualikan fail itu, iaitu, biarkan memuat turun laman web dan tidak peduli apa yang dikatakan oleh robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robot = mati

Sekarang ... ada pilihan atau parameter lain yang boleh kita gunakan untuk menipu laman web lebih banyak lagi, misalnya, menunjukkan bahawa kita memasuki laman web dari Google, di sini saya meninggalkan baris terakhir dengan semuanya:

wget --header = "Terima: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robot = off -k

Tidak diwajibkan laman web ini mengandungi http: // www pada awalnya, laman web ini boleh menjadi http: // seperti yang ini Geometri Dash

Adakah baik untuk melakukan ini?

Itu bergantung ... anda mesti melihatnya dari kedua-dua sudut pandangan, dari pentadbir laman web tetapi juga dari pembaca.

Di satu pihak, sebagai pentadbir, saya tidak mahu mereka mengambil salinan HTML dari laman web saya begitu sahaja, di sini dalam talian bukan untuk keseronokan, untuk kesenangan semua ... tujuan kami adalah untuk menyediakan kandungan menarik, yang boleh anda pelajari.

Tetapi, di sisi lain ... ada pengguna yang tidak mempunyai internet di rumah, yang ingin mempunyai keseluruhan bahagian Tutorial yang telah kami letakkan di sini ... Saya meletakkan diri saya di tempat mereka (sebenarnya saya, kerana di rumah saya tidak mempunyai internet) dan tidak menyenangkan berada di komputer, menghadapi masalah atau ingin melakukan sesuatu dan tidak dapat melakukannya kerana anda tidak mempunyai akses ke rangkaian rangkaian.

Sama ada betul atau salah terserah kepada setiap pentadbir, realiti masing-masing ... apa yang paling membimbangkan saya ialah penggunaan sumber yang menyebabkan masalah pada pelayan, tetapi dengan sistem cache yang baik semestinya cukup untuk pelayan tidak menderita.

Internet

Kesimpulan

Saya meminta anda untuk tidak mula memuat turun sekarang. DesdeLinux HA HA HA!! Sebagai contoh, teman wanita saya meminta saya memuat turun beberapa penipuan Geometry Dash (sesuatu seperti Geometry Dash Cheats), saya tidak akan memuat turun keseluruhan laman web, tetapi saya hanya akan membuka halaman yang dikehendaki dan menyimpannya dalam PDF atau HTML atau sesuatu, yang Ini adalah apa yang saya cadangkan kepada anda.

Jika anda mempunyai sebarang tutorial DesdeLinux yang anda ingin simpan, simpan dalam penanda halaman anda, sebagai HTML atau PDF... tetapi, untuk satu atau dua tutorial tidak perlu menjana trafik dan penggunaan yang berlebihan pada pelayan 😉

Tidak apa-apa, saya harap ia berguna ... Salam


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab atas data: Miguel Ángel Gatón
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.

  1.   eliotime3000 kata

    Petua menarik. Saya tidak tahu anda boleh melakukan itu.

  2.   Emmanuel kata

    Ini adalah apa yang telah berlaku kepada saya dua kali, dan itu pasti disebabkan olehnya. Walaupun, kerana alasan pantas (rumah vs universiti) saya mahu mengakses kandungan dengan cara itu. 😛
    Terima kasih atas nasihatnya. Salam.

  3.   Gerardo kata

    Hebat bagi kita yang tidak mempunyai internet. Tentunya tutorial yang bagus.

  4.   Quinotto kata

    Artikel yang sangat menarik.
    Soalan: bagaimana ia dapat dilakukan untuk laman https?
    Di mana ia diperlukan untuk mengesahkan dengan nama pengguna dan kata laluan dan juga sebahagian besar laman web ditulis dalam java?
    Salam dan terima kasih

  5.   Gelibassium kata

    dan di mana muat turun disimpan?

    1.    Gelibassium kata

      Saya menjawab sendiri: dalam folder peribadi. Tetapi sekarang persoalannya ... bolehkah anda memberitahunya di mana untuk memuat turun kandungannya?

      terima kasih

      1.    Daniel kata

        Saya rasa anda pertama kali mengakses folder di mana anda mahu menyimpannya dan kemudian anda menjalankan wget

  6.   cristian kata

    pertanyaan ... dan akan ada yang seperti ini untuk "mengklon" pangkalan data

  7.   xphnx kata

    Saya mempunyai rasa ingin tahu, adakah anda menerima wang untuk meletakkan pautan tersebut ke laman web mikro?

  8.   Rupert kata

    Wget diberkati ... begitulah cara saya memuat turun banyak porno di babi saya xD

  9.   berbulan kata

    petua yang baik. terima kasih

  10.   NULL kata

    Sangat baik, saya suka bahagian untuk mengelakkan sekatan.

  11.   Franz kata

    Terima kasih untuk permata itu:
    wget –header = »Terima: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robot = mati

    wget –header = »Terima: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robot = mati

    wget –header = »Terima: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robot = mati

  12.   Dovecotes kata

    Sangat menarik.

  13.   oscar meza kata

    wget adalah salah satu alat yang sangat berkuasa, dengan sedikit pengaturcaraan terminal, anda boleh membuat robot gaya google anda sendiri untuk mula memuat turun kandungan halaman dan menyimpannya dalam pangkalan data anda sendiri dan melakukan apa sahaja yang anda mahukan kemudian dengan data tersebut.

  14.   Charles G. kata

    Saya dapati alat ini sangat menarik, saya tidak pernah memperhatikan parameternya, saya ingin tahu apakah mungkin memuat turun kandungan dari halaman «X» yang mesti anda log masuk untuk masuk, dan jika ada di laman web ini « X "adakah video, adakah saya juga memuat turunnya walaupun milik CDN yang berbeza daripada laman" X "?

    Sekiranya ini dapat dilakukan, bagaimana laman web melindungi dari alat seperti itu?

    Salam!

  15.   Erick zanardi kata

    Selamat Malam:

    Saya menulis kepada anda untuk berunding. Saya memuat turun dengan arahan terakhir artikel ini, hampir 300 MB maklumat .. fail .swf, .js, .html, dari halaman http://www.netacad.com/es dengan pengguna saya dari kursus kecil yang saya lakukan di Maracay, Venezuela.

    Soalan saya adalah ... Adakah mungkin untuk melihat animasi kilat?

    Saya memasukkan "Konfigurasi Global" dan pilihan yang ditunjukkannya tidak membenarkan saya mengkonfigurasi.

    Saya menghargai apa-apa tindak balas.

    Terima kasih terlebih dahulu!

    1.    ADX kata

      Saya mempunyai perincian yang sama, .swf dimuat turun separuh, jika anda berjaya melangkauinya, kongsi maklumat saya. Apa yang saya buat kali terakhir adalah menggunakan labah-labah untuk mendapatkan semua pautan netacad tetapi tetap .swf tidak selesai memuat turun sebagaimana mestinya

  16.   alexander.hernandez kata

    sangat bagus !!! terima kasih.

  17.   Ann kata

    Helo, terima kasih untuk tuto anda. Saya cuba memuat turun blog di mana saya dijemput, dengan kata laluan, supaya saya dapat membacanya dari rumah tanpa sambungan. Saya menggunakan program ini, dan jelas, saya mempunyai kata laluan blog (wordpress), tetapi saya tidak tahu bagaimana untuk meneruskannya. Boleh awak tunjukkan?
    Terima kasih terlebih dahulu dan salam!

  18.   Fran kata

    apa jawatan hebat !!!

  19.   Santiago kata

    sangat baik telah banyak membantu saya

  20.   Fran kata

    Saya log masuk ke laman web dengan video vimeo yang tersemat dan tidak ada cara untuk dimuat turun .. seolah-olah vimeo telah melindungi mereka. Ada idea ??