Kısıtlamalar olsa bile sitenin tamamını wget ile indirin

Wget nedir?

Daha iyi bir şey Vikipedi Bu aracın nelerden oluştuğunu açıklamak için:

GNU Wget web sunucularından basit bir şekilde içerik indirmeye izin veren ücretsiz bir yazılım aracıdır. Adı World Wide Web'den (w) ve "get" (İngilizce'de olsun) kelimesinden türemiştir, bunun anlamı: WWW'den almak.

Şu anda HTTP, HTTPS ve FTP protokollerini kullanarak indirmeleri desteklemektedir.

Sunduğu en seçkin özellikler arasında wget karmaşık aynaların özyinelemeli olarak kolayca indirilmesi, bağlantıların HTML içeriğini yerel olarak görüntülemek için dönüştürülmesi, proxy'ler için destek ...

De wget Zaten yeterince konuştuk burada DesdeLinux. Aslında ya Wget ile eksiksiz bir web sitesini nasıl indireceğimizi görmüştük, sorun şu ki, günümüzde yöneticiler her zaman kimsenin web sitelerinin tamamını indirmesine izin vermiyor, bu onların gerçekten sevdikleri bir şey değil ... ve tabii ki anlıyorum. Site istişare için internette bulunur, okuyucu ilgilendiği içeriğe erişir ve site yöneticisi, ziyaretler vb. Gibi mali açıdan iyi (reklam yoluyla) fayda sağlar. Okuyucu siteyi bilgisayarına indirirse, geçmiş bir gönderiye başvurmak için çevrimiçi olmak zorunda kalmaz.

Wget ile bir siteyi indirmek şu kadar basit:

wget -r -k http://www.sitio.com

  • -r : Bu, web sitesinin tamamının indirileceğini gösterir.
  • -k : Bu, indirilen sitenin bağlantılarının internet olmayan bilgisayarlarda görünecek şekilde dönüştürüleceğini gösterir.

Şimdi, site yöneticisi işimizi zorlaştırdığında işler karmaşıklaşıyor ...

Ne tür kısıtlamalar olabilir?

Bulabildiğimiz en yaygın durum, siteye erişime yalnızca tanınan bir UserAgent'ınız varsa izin verilmesidir. Başka bir deyişle, site bu kadar çok sayfa indiren UserAgent'ın "normal" olanlardan biri olmadığını anlayacak ve bu nedenle erişimi kapatacaktır.

Ayrıca robots.txt dosyası aracılığıyla o wget'i (bir grup daha benzer uygulama gibi) İstemcinin istediği gibi indiremeyeceksiniz, peki ... peki, site yöneticisi istiyor, nokta 😀

Bu kısıtlamalar nasıl aşılır?

İlk durum için wget için bir UserAgent kuracağız, bunu seçeneği ile yapabiliriz -Kullanıcı-aracı, işte size nasıl olduğunu gösteriyorum:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Şimdi, robots.txt'de dolaşmak için, bu dosyayı hariç tutun, yani siteyi indirmeye wget'a izin verin ve robots.txt'nin ne dediği umurunuzda olmasın:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robotlar = kapalı

Şimdi ... siteyi daha da kandırmak için kullanabileceğimiz başka seçenekler veya parametreler var, örneğin, siteye Google'dan girdiğimizi belirtin, burada son satırı her şeyle bırakıyorum:

wget --header = "Kabul et: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robotlar = kapalı -k

Sitenin başında http: // www bulunması zorunlu değildir, örneğin bu sitenin doğrudan http: // olabilir geometri Dash

Bunu yapmak doğru mu?

Bu duruma göre değişir ... her zaman hem site yöneticisinden hem de okuyucudan her iki açıdan da görmeniz gerekir.

Bir yandan, bir yönetici olarak, sitemin bir HTML kopyasını bu şekilde almalarını istemem, burada zevk için değil, herkesin keyif alması için çevrim içi ... amacımız ilginç içeriğe sahip olmak öğrenebilirsin.

Ama öte yandan ... evde interneti olmayan, buraya koyduğumuz Tutorials bölümünün tamamına sahip olmak isteyen kullanıcılar var ... Kendimi onların yerine koydum (aslında öyleyim çünkü evde internetim yok) ve bilgisayar başında olmak, bir problem yaşamak veya bir şeyler yapmak istemek ve ağa erişiminiz olmadığı için yapamamak hoş değildir.

Doğru ya da yanlış olması her yöneticiye bağlıdır, her birinin gerçekliği ... Beni en çok ilgilendiren şey wget'in sunucuda neden olduğu kaynak tüketimi olacaktır, ancak iyi bir önbellek sistemi ile sunucu için yeterli olmamalıdır. acı çekmek.

Internet

Sonuçlar

Şimdi indirmeye başlamamanızı rica ediyorum. DesdeLinux HA HA HA!! Örneğin, kız arkadaşım benden bazı Geometry Dash Hileleri (Geometry Dash Hileleri gibi bir şey) indirmemi istedi, web sitesinin tamamını indirmeyeceğim, ancak sadece istenen sayfayı açıp onu PDF veya HTML veya başka bir şey olarak kaydedeceğim. sana ne tavsiye ederim.

Herhangi bir eğitiminiz varsa DesdeLinux Kaydetmek istediğinizi yer imlerinize HTML veya PDF olarak kaydedin... ancak bir veya iki eğitim için sunucuda aşırı trafik ve tüketim oluşturmaya gerek yoktur 😉

Peki hiçbir şey, umarım yararlıdır ... Selamlar


Yorumunuzu bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmiştir *

*

*

  1. Verilerden sorumlu: Miguel Ángel Gatón
  2. Verilerin amacı: Kontrol SPAM, yorum yönetimi.
  3. Meşruiyet: Onayınız
  4. Verilerin iletilmesi: Veriler, yasal zorunluluk dışında üçüncü kişilere iletilmeyecektir.
  5. Veri depolama: Occentus Networks (AB) tarafından barındırılan veritabanı
  6. Haklar: Bilgilerinizi istediğiniz zaman sınırlayabilir, kurtarabilir ve silebilirsiniz.

  1.   eliotime3000 dijo

    İlginç bir ipucu. Bunu yapabileceğini bilmiyordum.

  2.   Emmanuel dijo

    Bu açıkça bana iki kez olan şeydi ve kesinlikle bu yüzden oldu. Bununla birlikte, içeriğe bu şekilde erişmek istemem hız nedenleriyle (ev vs üniversite) oldu. 😛
    Tavsiye için teşekkürler. Saygılarımızla.

  3.   Gerardo dijo

    İnterneti olmayan bizler için harika. Kesinlikle iyi öğreticiler.

  4.   Quinotto dijo

    Çok ilginç makale.
    Soru: https siteleri için nasıl yapılabilir?
    Kullanıcı adı ve şifre ile kimlik doğrulaması nerede gereklidir ve ayrıca sitenin büyük bir kısmı java ile yazılmıştır?
    Selamlar ve teşekkürler

  5.   Gelibasyum dijo

    ve indirilenler nereye kaydedilir?

    1.    Gelibasyum dijo

      Kendime cevap veriyorum: kişisel dosyada. Ama şimdi soru şu ... İçeriği nereden indireceğini ona bir şekilde söyleyebilir misin?

      Teşekkürler

      1.    Daniel dijo

        Sanırım önce kaydetmek istediğiniz klasöre erişiyorsunuz ve sonra wget'ı çalıştırıyorsunuz

  6.   cristian dijo

    sorgu ... ve bir veritabanını "klonlamak" için buna benzer bir şey olacaktır.

  7.   xphnx dijo

    Merak ediyorum, bu bağlantıları mikro niş ağlarına yerleştirdiğiniz için para alıyor musunuz?

  8.   Rupert dijo

    Kutsanmış wget ... domuz günlerimde böyle çok porno indirdim xD

  9.   Alunado dijo

    iyi bahşiş. Teşekkürler

  10.   NULL dijo

    Çok güzel, kısıtlamaları aşma kısmını beğendim.

  11.   Franz dijo

    Bu mücevher için teşekkürler:
    wget –header = »Kabul et: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotlar = kapalı

    wget –header = »Kabul et: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robotlar = kapalı

    wget –header = »Kabul et: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotlar = kapalı

  12.   Palomares dijo

    Çok ilginç.

  13.   oscar mezası dijo

    wget bu ultra güçlü araçlardan biridir, küçük bir terminal programlamayla sayfaların içeriğini indirmeye başlamak ve kendi veritabanınızda saklamak ve bu verilerle daha sonra istediğinizi yapmak için kendi google tarzı robotunuzu yapabilirsiniz.

  14.   Charles G. dijo

    Bu aracı çok ilginç buluyorum, parametrelerine hiç dikkat etmedim, girmek için oturum açmanız gereken bir «X» sayfasından içerik indirmenin mümkün olup olmadığını ve bir yerde olup olmadığını bilmek istiyorum «X» bu sitede herhangi bir video var mı, «X» sitesinden farklı bir CDN'ye ait olsa bile indirebilir miyim?

    Bu mümkün olsaydı, bir site böyle bir araca karşı nasıl koruma sağlar?

    Selamlar!

  15.   Erick zanardi dijo

    İyi geceler:

    Size danışma için yazıyorum. Bu makalenin son komutu ile neredeyse 300MB'lık bilgiyi indirdim .. .swf, .js, .html dosyalarını sayfadan http://www.netacad.com/es Maracay, Venezuela'da yaptığım küçük bir kurstan kullanıcımla.

    Sorum şu ... Flash animasyonları görmek mümkün olacak mı?

    "Global Yapılandırma" giriyorum ve hiçbirini göstermeyen seçenekler yapılandırmama izin vermiyor.

    Herhangi bir cevabı takdir ediyorum.

    şimdiden teşekkür ederiz!

    1.    ADX dijo

      Aynı ayrıntıya sahibim, .swf yarıya indirildi, atlamayı başarırsanız, benimle bilgi paylaşın. Son denediğim şey, tüm netacad bağlantılarını almak için bir örümcek kullanmaktı ancak yine de .swf gerektiği gibi indirmeyi bitirmiyor

  16.   alexander.hernandez dijo

    çok iyi !!! Teşekkürler.

  17.   Ana dijo

    Merhaba, öğretmen için teşekkürler. Bağlantım olmadan evden okuyabilmek için davet edildiğim bir blogu şifre ile indirmeye çalışıyorum. Bu programı kullanıyorum ve açıkçası blogun (wordpress) şifresine sahibim ama nasıl devam edeceğimi bilmiyorum. Bana gösterebilir misin?
    Şimdiden teşekkürler ve saygılarımla!

  18.   Fran dijo

    ne harika bir gönderi !!!

  19.   Santiago dijo

    mükemmel bana çok hizmet etti

  20.   Fran dijo

    Gömülü vimeo videoları olan bir web sitesine giriş yaptım ve bunların indirilmesinin bir yolu yok .. sanki vimeo onları korumalı gibi görünüyor. Herhangi bir fikir??