Kısıtlamalar olsa bile web sitesinin tamamını wget ile indirin

Kısıtlamalar olsa bile sitenin tamamını wget ile indirin

Wget nedir?

Daha iyi bir şey Vikipedi Bu aracın nelerden oluştuğunu açıklamak için:

GNU Wget web sunucularından basit bir şekilde içerik indirmeye izin veren ücretsiz bir yazılım aracıdır. Adı World Wide Web'den (w) ve "get" (İngilizce'de olsun) kelimesinden türemiştir, bunun anlamı: WWW'den almak.

Şu anda HTTP, HTTPS ve FTP protokollerini kullanarak indirmeleri desteklemektedir.

Sunduğu en seçkin özellikler arasında wget karmaşık aynaların özyinelemeli olarak kolayca indirilmesi, bağlantıların HTML içeriğini yerel olarak görüntülemek için dönüştürülmesi, proxy'ler için destek ...

De wget Zaten yeterince konuştuk burada DesdeLinux. Aslında ya Wget ile eksiksiz bir web sitesini nasıl indireceğimizi görmüştük, sorun şu ki, günümüzde yöneticiler her zaman kimsenin web sitelerinin tamamını indirmesine izin vermiyor, bu onların gerçekten sevdikleri bir şey değil ... ve tabii ki anlıyorum. Site istişare için internette bulunur, okuyucu ilgilendiği içeriğe erişir ve site yöneticisi, ziyaretler vb. Gibi mali açıdan iyi (reklam yoluyla) fayda sağlar. Okuyucu siteyi bilgisayarına indirirse, geçmiş bir gönderiye başvurmak için çevrimiçi olmak zorunda kalmaz.

Wget ile bir siteyi indirmek şu kadar basit:

wget -r -k http://www.sitio.com

-r : Bu, web sitesinin tamamının indirileceğini gösterir.
-k : Bu, indirilen sitenin bağlantılarının internet olmayan bilgisayarlarda görünecek şekilde dönüştürüleceğini gösterir.

Şimdi, site yöneticisi işimizi zorlaştırdığında işler karmaşıklaşıyor ...

Ne tür kısıtlamalar olabilir?

Bulabildiğimiz en yaygın durum, siteye erişime yalnızca tanınan bir UserAgent'ınız varsa izin verilmesidir. Başka bir deyişle, site bu kadar çok sayfa indiren UserAgent'ın "normal" olanlardan biri olmadığını anlayacak ve bu nedenle erişimi kapatacaktır.

Ayrıca robots.txt dosyası aracılığıyla o wget'i (bir grup daha benzer uygulama gibi) İstemcinin istediği gibi indiremeyeceksiniz, peki ... peki, site yöneticisi istiyor, nokta 😀

Bu kısıtlamalar nasıl aşılır?

İlk durum için wget için bir UserAgent kuracağız, bunu seçeneği ile yapabiliriz -Kullanıcı-aracı, işte size nasıl olduğunu gösteriyorum:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Şimdi, robots.txt'de dolaşmak için, bu dosyayı hariç tutun, yani siteyi indirmeye wget'a izin verin ve robots.txt'nin ne dediği umurunuzda olmasın:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robotlar = kapalı

Şimdi ... siteyi daha da kandırmak için kullanabileceğimiz başka seçenekler veya parametreler var, örneğin, siteye Google'dan girdiğimizi belirtin, burada son satırı her şeyle bırakıyorum:

wget --header = "Kabul et: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robotlar = kapalı -k

Sitenin başında http: // www bulunması zorunlu değildir, örneğin bu sitenin doğrudan http: // olabilir geometri Dash

Bunu yapmak doğru mu?

Bu duruma göre değişir ... her zaman hem site yöneticisinden hem de okuyucudan her iki açıdan da görmeniz gerekir.

Bir yandan, bir yönetici olarak, sitemin bir HTML kopyasını bu şekilde almalarını istemem, burada zevk için değil, herkesin keyif alması için çevrim içi ... amacımız ilginç içeriğe sahip olmak öğrenebilirsin.

Ama öte yandan ... evde interneti olmayan, buraya koyduğumuz Tutorials bölümünün tamamına sahip olmak isteyen kullanıcılar var ... Kendimi onların yerine koydum (aslında öyleyim çünkü evde internetim yok) ve bilgisayar başında olmak, bir problem yaşamak veya bir şeyler yapmak istemek ve ağa erişiminiz olmadığı için yapamamak hoş değildir.

Doğru ya da yanlış olması her yöneticiye bağlıdır, her birinin gerçekliği ... Beni en çok ilgilendiren şey wget'in sunucuda neden olduğu kaynak tüketimi olacaktır, ancak iyi bir önbellek sistemi ile sunucu için yeterli olmamalıdır. acı çekmek.

Sonuçlar

Şimdi indirmeye başlamamanızı rica ediyorum. DesdeLinux HA HA HA!! Örneğin, kız arkadaşım benden bazı Geometry Dash Hileleri (Geometry Dash Hileleri gibi bir şey) indirmemi istedi, web sitesinin tamamını indirmeyeceğim, ancak sadece istenen sayfayı açıp onu PDF veya HTML veya başka bir şey olarak kaydedeceğim. sana ne tavsiye ederim.

Herhangi bir eğitiminiz varsa DesdeLinux Kaydetmek istediğinizi yer imlerinize HTML veya PDF olarak kaydedin... ancak bir veya iki eğitim için sunucuda aşırı trafik ve tüketim oluşturmaya gerek yoktur 😉

Peki hiçbir şey, umarım yararlıdır ... Selamlar

Yorumunuzu bırakın Cevabı iptal et

eliotime3000 dijo
önce 9 yıl

İlginç bir ipucu. Bunu yapabileceğini bilmiyordum.

Eliotime3000 için yanıt
Emmanuel dijo
önce 9 yıl

Bu açıkça bana iki kez olan şeydi ve kesinlikle bu yüzden oldu. Bununla birlikte, içeriğe bu şekilde erişmek istemem hız nedenleriyle (ev vs üniversite) oldu. 😛
Tavsiye için teşekkürler. Saygılarımızla.

Emmanuel'e yanıt ver
Gerardo dijo
önce 9 yıl

İnterneti olmayan bizler için harika. Kesinlikle iyi öğreticiler.

Gerardo'ya yanıt ver
Quinotto dijo
önce 9 yıl

Çok ilginç makale.
Soru: https siteleri için nasıl yapılabilir?
Kullanıcı adı ve şifre ile kimlik doğrulaması nerede gereklidir ve ayrıca sitenin büyük bir kısmı java ile yazılmıştır?
Selamlar ve teşekkürler

Quinotto için yanıt
Gelibasyum dijo
önce 9 yıl

ve indirilenler nereye kaydedilir?

Gelibasio'ya yanıt verin
1. Gelibasyum dijo
  önce 9 yıl
  
  Kendime cevap veriyorum: kişisel dosyada. Ama şimdi soru şu ... İçeriği nereden indireceğini ona bir şekilde söyleyebilir misin?
  
  Teşekkürler
  
  Gelibasio'ya yanıt verin
  1. Daniel dijo
    önce 9 yıl
    
    Sanırım önce kaydetmek istediğiniz klasöre erişiyorsunuz ve sonra wget'ı çalıştırıyorsunuz
    
    Daniel için yanıt
cristian dijo
önce 9 yıl

sorgu ... ve bir veritabanını "klonlamak" için buna benzer bir şey olacaktır.

Cristian için yanıt
xphnx dijo
önce 9 yıl

Merak ediyorum, bu bağlantıları mikro niş ağlarına yerleştirdiğiniz için para alıyor musunuz?

Xphnx için yanıtla
Rupert dijo
önce 9 yıl

Kutsanmış wget ... domuz günlerimde böyle çok porno indirdim xD

Ruperto için yanıt
Alunado dijo
önce 9 yıl

iyi bahşiş. Teşekkürler

Alunado için yanıt
NULL dijo
önce 9 yıl

Çok güzel, kısıtlamaları aşma kısmını beğendim.

NULL yanıtla
Franz dijo
önce 9 yıl

Bu mücevher için teşekkürler:
wget –header = »Kabul et: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotlar = kapalı

wget –header = »Kabul et: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robotlar = kapalı

wget –header = »Kabul et: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robotlar = kapalı

Franz'a yanıtla
Palomares dijo
önce 9 yıl

Çok ilginç.

Palomares için yanıt
oscar mezası dijo
önce 9 yıl

wget bu ultra güçlü araçlardan biridir, küçük bir terminal programlamayla sayfaların içeriğini indirmeye başlamak ve kendi veritabanınızda saklamak ve bu verilerle daha sonra istediğinizi yapmak için kendi google tarzı robotunuzu yapabilirsiniz.

Oscar Meza için yanıt
Charles G. dijo
önce 9 yıl

Bu aracı çok ilginç buluyorum, parametrelerine hiç dikkat etmedim, girmek için oturum açmanız gereken bir «X» sayfasından içerik indirmenin mümkün olup olmadığını ve bir yerde olup olmadığını bilmek istiyorum «X» bu sitede herhangi bir video var mı, «X» sitesinden farklı bir CDN'ye ait olsa bile indirebilir miyim?

Bu mümkün olsaydı, bir site böyle bir araca karşı nasıl koruma sağlar?

Selamlar!

Carlos G için yanıt
Erick zanardi dijo
önce 9 yıl

İyi geceler:

Size danışma için yazıyorum. Bu makalenin son komutu ile neredeyse 300MB'lık bilgiyi indirdim .. .swf, .js, .html dosyalarını sayfadan http://www.netacad.com/es Maracay, Venezuela'da yaptığım küçük bir kurstan kullanıcımla.

Sorum şu ... Flash animasyonları görmek mümkün olacak mı?

"Global Yapılandırma" giriyorum ve hiçbirini göstermeyen seçenekler yapılandırmama izin vermiyor.

Herhangi bir cevabı takdir ediyorum.

şimdiden teşekkür ederiz!

Erick Zanardi için yanıt
1. ADX dijo
  önce 9 yıl
  
  Aynı ayrıntıya sahibim, .swf yarıya indirildi, atlamayı başarırsanız, benimle bilgi paylaşın. Son denediğim şey, tüm netacad bağlantılarını almak için bir örümcek kullanmaktı ancak yine de .swf gerektiği gibi indirmeyi bitirmiyor
  
  ADX'e yanıt ver
alexander.hernandez dijo
önce 8 yıl

çok iyi !!! Teşekkürler.

Alejandro.hernandez için yanıt
Ana dijo
önce 8 yıl

Merhaba, öğretmen için teşekkürler. Bağlantım olmadan evden okuyabilmek için davet edildiğim bir blogu şifre ile indirmeye çalışıyorum. Bu programı kullanıyorum ve açıkçası blogun (wordpress) şifresine sahibim ama nasıl devam edeceğimi bilmiyorum. Bana gösterebilir misin?
Şimdiden teşekkürler ve saygılarımla!

Ana'ya yanıtla
Fran dijo
önce 7 yıl

ne harika bir gönderi !!!

Fran için yanıt
Santiago dijo
önce 7 yıl

mükemmel bana çok hizmet etti

Santiago'ya yanıtla
Fran dijo
önce 7 yıl

Gömülü vimeo videoları olan bir web sitesine giriş yaptım ve bunların indirilmesinin bir yolu yok .. sanki vimeo onları korumalı gibi görünüyor. Herhangi bir fikir??

Fran için yanıt