प्रतिबंध होने पर भी पूरी साइट को wget के साथ डाउनलोड करें

Wget क्या है?

इससे बेहतर कुछ भी नहीं विकिपीडिया यह समझाने के लिए कि इस उपकरण में क्या है:

जीएनयू Wget एक मुफ्त सॉफ्टवेयर टूल है जो वेब सर्वर से सामग्री को सरल तरीके से डाउनलोड करने की अनुमति देता है। इसका नाम वर्ल्ड वाइड वेब (डब्ल्यू), और "गेट" (अंग्रेजी में मिलता है) से निकला है, इसका मतलब है: डब्ल्यूडब्ल्यूडब्ल्यू से प्राप्त करें।

वर्तमान में यह HTTP, HTTPS और FTP प्रोटोकॉल का उपयोग कर डाउनलोड का समर्थन करता है।

सबसे उत्कृष्ट सुविधाओं में यह प्रदान करता है wget जटिल दर्पणों के पुन: डाउनलोड करने की संभावना है, स्थानीय स्तर पर HTML सामग्री प्रदर्शित करने के लिए लिंक का रूपांतरण, प्रॉक्सी के लिए समर्थन ...

De wget हम यहां पहले ही काफी चर्चा कर चुके हैं DesdeLinux। असल में ya हमने देखा था कि कैसे एक पूरी वेबसाइट को wget के साथ डाउनलोड किया जाता है, समस्या यह है कि आजकल के प्रशासक हमेशा किसी को अपनी पूरी वेबसाइट को वैसे ही डाउनलोड करने की अनुमति नहीं देते हैं, यह ऐसा कुछ नहीं है जो वे वास्तव में पसंद करते हैं ... और, जाहिर है मैं समझता हूं। इंटरनेट पर साइट यह परामर्श करने के लिए है, पाठक ब्याज की सामग्री का उपयोग करता है और साइट व्यवस्थापक को आर्थिक रूप से अच्छी तरह से लाभान्वित किया जाता है (विज्ञापन द्वारा), जैसा कि यात्राओं में, आदि। यदि पाठक साइट को अपने कंप्यूटर पर डाउनलोड करते हैं, तो उन्हें पिछले पोस्ट से परामर्श करने के लिए ऑनलाइन नहीं जाना होगा।

Wget वाली साइट को डाउनलोड करना उतना ही सरल है:

wget -r -k http://www.sitio.com

  • -r : यह इंगित करता है कि पूरी वेबसाइट डाउनलोड हो जाएगी।
  • -k : यह इंगित करता है कि डाउनलोड की गई साइट के लिंक बिना इंटरनेट के कंप्यूटर पर देखे जा सकेंगे।

अब, चीजें जटिल हो जाती हैं जब साइट प्रशासक हमारे लिए मुश्किल बनाता है ...

क्या प्रतिबंध हो सकता है?

सबसे आम जो हम पा सकते हैं, वह यह है कि साइट तक पहुंच केवल तभी दी जाती है यदि आपके पास कोई उपयोगकर्ता-मान्यता प्राप्त उपयोगकर्ता है। दूसरे शब्दों में, साइट यह पहचान लेगी कि इतने सारे पेजों को डाउनलोड करने वाला यूजरएजेंट "सामान्य" लोगों में से एक नहीं है और वह भी करीब पहुंच जाएगा।

इसके अलावा robots.txt फ़ाइल के माध्यम से आप निर्दिष्ट कर सकते हैं कि wget (एक गुच्छा अधिक समान क्षुधा की तरह) आप ग्राहक की इच्छानुसार डाउनलोड नहीं कर पाएंगे, ठीक है ... ठीक है, साइट व्यवस्थापक इसे चाहता है, अवधि able

इन प्रतिबंधों को कैसे दरकिनार किया जाए?

पहली स्थिति के लिए हम एक यूजरएगेट को स्थापित करने के लिए करेंगे, हम विकल्प के साथ ऐसा कर सकते हैं -उपभोक्ता अभिकर्ता, यहाँ मैं आपको दिखाता हूँ:

wget --user-Agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) गेको / 20140804164216 ArchLinux KDE फ़ायरफ़ॉक्स / 32.0b4" -r -site.com -k

अब, robots.txt के आस-पास जाने के लिए, बस उस फ़ाइल को बाहर करें, अर्थात, साइट को डाउनलोड करने दें और ध्यान रखें कि robots.txt क्या है:

wget --user-agent = "मोज़िला / 5.0 (X11; Linux amd64; rv: 32.0b4) गेको / 20140804164216 ArchLinux KDE फ़ायरफ़ॉक्स / 32.0b4" -r -sr.com.com -k -e रोबोट = बंद

अब ... ऐसे अन्य विकल्प या पैरामीटर हैं जिनका उपयोग हम साइट को और भी अधिक धोखा देने के लिए कर सकते हैं, उदाहरण के लिए, इंगित करें कि हम Google से साइट में प्रवेश करते हैं, यहां मैं सब कुछ के साथ अंतिम पंक्ति छोड़ता हूं:

wget --header = "Accept: text / html" --user-agent = "मोज़िला / 5.0 (XSD) (amd11; rv: 64b32.0) गेको / 4 ArchLinux -DE फ़ायरफ़ॉक्स / 20140804164216b32.0" --referer = http: / /www.google.com -r http://www.site.com -e रोबोट = ऑफ -क

यह अनिवार्य नहीं है कि साइट में शुरुआत में http: // www शामिल हो, यह एक सीधे http: // हो सकता है, उदाहरण के लिए यह एक रेखागणित डैश

क्या ऐसा करना ठीक है?

यह निर्भर करता है ... आपको इसे हमेशा साइट व्यवस्थापक से, लेकिन पाठक से दोनों ही दृष्टिकोणों से देखना होगा।

एक तरफ, एक प्रशासक के रूप में, मैं यह नहीं चाहूंगा कि वे मेरी साइट की एक HTML प्रति ठीक उसी तरह ले रहे हैं, यह यहाँ ऑनलाइन है आनंद के लिए नहीं, सभी के आनंद के लिए ... हमारा लक्ष्य दिलचस्प सामग्री रखना है आपके लिए उपलब्ध है, जो आप सीख सकते हैं।

लेकिन, दूसरी तरफ ... ऐसे उपयोगकर्ता हैं जिनके पास घर पर इंटरनेट नहीं है, जो हमारे द्वारा डाले गए संपूर्ण ट्यूटोरियल अनुभाग को पसंद करेंगे ... मैंने खुद को उनके स्थान पर रखा (वास्तव में मैं हूं, क्योंकि घर पर मेरे पास इंटरनेट नहीं है) और यह कंप्यूटर पर होना, समस्या होने या कुछ करने की इच्छा न होना और आपके नेटवर्क के नेटवर्क तक पहुंच नहीं होने के कारण सक्षम नहीं होना सुखद नहीं है।

चाहे वह सही हो या गलत, प्रत्येक व्यवस्थापक पर निर्भर है, हर एक की वास्तविकता ... मुझे सबसे ज्यादा चिंता इस बात की होगी कि सर्वर पर किस कारण से संसाधनों की खपत होती है, लेकिन एक अच्छी कैश प्रणाली के साथ यह पर्याप्त होना चाहिए सर्वर को नुकसान नहीं होता है।

इंटरनेट

निष्कर्ष

मैं आपसे अनुरोध करता हूं कि अभी डाउनलोड करना शुरू न करें। DesdeLinux हा हा हा!! उदाहरण के लिए, मेरी प्रेमिका ने मुझसे कुछ ज्योमेट्री डैश चीट्स (कुछ-कुछ ज्योमेट्री डैश चीट्स जैसा) डाउनलोड करने के लिए कहा, मैं पूरी वेबसाइट डाउनलोड नहीं करूंगा, लेकिन मैं बस वांछित पेज खोलूंगा और इसे पीडीएफ या HTML या कुछ और में सेव करूंगा, वह है मैं आपको क्या सिफ़ारिश करूंगा.

यदि आपके पास कोई ट्यूटोरियल है DesdeLinux जिसे आप सहेजना चाहते हैं, उसे अपने बुकमार्क में HTML या PDF के रूप में सहेजें... लेकिन, एक या दो ट्यूटोरियल के लिए सर्वर पर अत्यधिक ट्रैफ़िक और खपत उत्पन्न करना आवश्यक नहीं है 😉

खैर कुछ नहीं, मुझे आशा है कि यह उपयोगी है ... अभिवादन


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।

  1.   एलियोटाइम३००० कहा

    दिलचस्प टिप। मुझे नहीं पता था कि आप ऐसा कर सकते हैं।

  2.   Emmanuel कहा

    यह स्पष्ट रूप से है कि मेरे साथ दो बार क्या हुआ था, और यह निश्चित रूप से इसके कारण था। हालांकि, यह गति के कारणों (घर बनाम विश्वविद्यालय) के लिए था कि मैं उस तरह से सामग्री का उपयोग करना चाहता था। 😛
    सलाह के लिए धन्यवाद। सादर।

  3.   Gerardo कहा

    हममें से उन लोगों के लिए बहुत अच्छा है जिनके पास इंटरनेट नहीं है। निश्चित रूप से अच्छा ट्यूटोरियल।

  4.   क्विनोटो कहा

    बहुत ही रोचक लेख।
    प्रश्न: यह https साइटों के लिए कैसे किया जा सकता है?
    उपयोगकर्ता नाम और पासवर्ड के माध्यम से इसे प्रमाणित करने की आवश्यकता कहां है और साइट का एक बड़ा हिस्सा जावा में लिखा है?
    नमस्ते और धन्यवाद

  5.   जेलिबेशियम कहा

    और डाउनलोड कहाँ सहेजे गए हैं?

    1.    जेलिबेशियम कहा

      मैं अपने आप को जवाब देता हूं: व्यक्तिगत फ़ोल्डर में। लेकिन अब सवाल यह है कि ... क्या आप किसी तरह उसे बता सकते हैं कि सामग्री कहाँ से डाउनलोड करें?

      graciass

      1.    डैनियल कहा

        मुझे लगता है कि आप पहले उस फ़ोल्डर का उपयोग करते हैं जहां आप इसे सहेजना चाहते हैं और फिर आप wget चलाते हैं

  6.   क्रिस्टियन कहा

    क्वेरी ... और एक डेटाबेस "क्लोन" करने के लिए ऐसा कुछ होगा

  7.   xphnx कहा

    मुझे एक जिज्ञासा है, क्या आपको माइक्रो-नीच वेब्स के लिए लिंक देने के लिए पैसे मिलते हैं?

  8.   रूपर्टो कहा

    धन्यवाद् ... यही कि मैंने अपने सुअर के दिनों में बहुत सारे पोर्न डाउनलोड किए

  9.   अल्नाडो कहा

    अच्छा सुझाव। धन्यवाद

  10.   नल कहा

    बहुत अच्छा, मुझे प्रतिबंधों को दरकिनार करने के बारे में पसंद आया।

  11.   फ्रांज़ कहा

    उस मणि के लिए धन्यवाद:
    wget -header = »स्वीकार करें: टेक्स्ट / html» -उज़र-एजेंट = »मोज़िला / 5.0 (XSD / i11; rv: 686) गेको / 31 फ़ायरफ़ॉक्स / 20100101 re -referer = http: //www.google.com - आर https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e रोबोट = बंद

    wget -header = »स्वीकार करें: टेक्स्ट / html» -उज़र-एजेंट = »मोज़िला / 5.0 (XSD / i11; rv: 686) गेको / 31 फ़ायरफ़ॉक्स / 20100101 re -referer = http: //www.google.com - आर https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e रोबोट = बंद

    wget -header = »स्वीकार करें: टेक्स्ट / html» -उज़र-एजेंट = »मोज़िला / 5.0 (XSD / i11; rv: 686) गेको / 31 फ़ायरफ़ॉक्स / 20100101 re -referer = http: //www.google.com - आर https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e रोबोट = बंद

  12.   पालोमरस कहा

    बहुत दिलचस्प है.

  13.   ऑस्कर मेजा कहा

    wget उन अल्ट्रा-पावरफुल टूल में से एक है, थोड़े से टर्मिनल प्रोग्रामिंग के साथ आप अपनी खुद की Google-स्टाइल रोबोट बना सकते हैं, जो पेजों की सामग्री को डाउनलोड करना शुरू कर सकती है और इसे अपने डेटाबेस में स्टोर कर सकती है और जो भी आप चाहते हैं, बाद में उस डेटा के साथ कर सकते हैं।

  14.   कार्लोस जी कहा

    मुझे यह उपकरण बहुत दिलचस्प लगता है, मैंने कभी इसके मापदंडों पर ध्यान नहीं दिया था, मैं जानना चाहूंगा कि क्या एक «एक्स» पेज से सामग्री डाउनलोड करना संभव है, जिसमें आपको प्रवेश करने के लिए लॉग इन करना होगा, और यदि यह कहीं है तो इस साइट पर «एक्स» कोई वीडियो है, क्या मैं इसे भी डाउनलोड करूंगा, भले ही यह «एक्स» साइट से अलग सीडीएन का हो?

    यदि यह संभव था, तो एक साइट इस तरह के उपकरण से कैसे बचाती है

    नमस्ते!

  15.   एरिक ज़ानार्डी कहा

    शुभ रात्रि:

    मैं आपसे एक परामर्श के लिए लिख रहा हूं। मैंने इस लेख की अंतिम कमांड, लगभग 300MB जानकारी .. फ़ाइलों, .swf, .js, .html, पृष्ठ से डाउनलोड की। http://www.netacad.com/es वेनेजुएला के माराके में एक छोटे से कोर्स से जो मैंने किया था।

    मेरा सवाल है ... क्या फ्लैश एनिमेशन देखना संभव होगा?

    मैं "ग्लोबल कॉन्फ़िगरेशन" दर्ज करता हूं और जो विकल्प दिखाता है वह मुझे कॉन्फ़िगर करने की अनुमति नहीं देता है।

    मैं किसी भी प्रतिक्रिया की सराहना करता हूं।

    अग्रिम में धन्यवाद!

    1.    ADX कहा

      मेरे पास एक ही विवरण है, .swf को आधा डाउनलोड किया जाता है, यदि आप इसे छोड़ना चाहते हैं, तो मुझे जानकारी साझा करें। मैंने आखिरी कोशिश की थी कि सभी नेटकाड लिंक प्राप्त करने के लिए एक मकड़ी का उपयोग किया जाए लेकिन फिर भी।

  16.   एलेजांद्रो.हर्नांडेज़ कहा

    बहुत अच्छा !!! धन्यवाद।

  17.   एना कहा

    हैलो, अपने tuto के लिए धन्यवाद। मैं एक ब्लॉग डाउनलोड करने की कोशिश कर रहा हूं जिसमें मुझे एक पासवर्ड के साथ आमंत्रित किया जाता है, ताकि मैं इसे बिना कनेक्शन के घर से पढ़ सकूं। मैं इस कार्यक्रम का उपयोग करता हूं, और जाहिर है, मेरे पास ब्लॉग (वर्डप्रेस) का पासवर्ड है, लेकिन मुझे नहीं पता कि कैसे आगे बढ़ना है। क्या तुम मुझे दिखा सकते हो?
    अग्रिम में धन्यवाद और सबसे अच्छा सम्मान!

  18.   फ्रान कहा

    क्या शानदार पोस्ट है !!!

  19.   सेंटिआगो कहा

    उत्कृष्ट इसने मुझे बहुत सेवा दी है

  20.   फ्रान कहा

    मैं एम्बेड किए गए vimeo वीडियो के साथ एक वेबसाइट में लॉग इन हूं और उन्हें डाउनलोड करने का कोई तरीका नहीं है .. ऐसा लगता है जैसे vimeo उन्हें संरक्षित करता है। कोई विचार??