प्रतिबंध होने पर भी पूरी साइट को wget के साथ डाउनलोड करें

Wget क्या है?

इससे बेहतर कुछ भी नहीं विकिपीडिया यह समझाने के लिए कि इस उपकरण में क्या है:

जीएनयू Wget एक मुफ्त सॉफ्टवेयर टूल है जो वेब सर्वर से सामग्री को सरल तरीके से डाउनलोड करने की अनुमति देता है। इसका नाम वर्ल्ड वाइड वेब (डब्ल्यू), और "गेट" (अंग्रेजी में मिलता है) से निकला है, इसका मतलब है: डब्ल्यूडब्ल्यूडब्ल्यू से प्राप्त करें।

वर्तमान में यह HTTP, HTTPS और FTP प्रोटोकॉल का उपयोग कर डाउनलोड का समर्थन करता है।

सबसे उत्कृष्ट सुविधाओं में यह प्रदान करता है wget जटिल दर्पणों के पुन: डाउनलोड करने की संभावना है, स्थानीय स्तर पर HTML सामग्री प्रदर्शित करने के लिए लिंक का रूपांतरण, प्रॉक्सी के लिए समर्थन ...

De wget hemos hablado ya bastante aquí en DesdeLinux। असल में ya हमने देखा था कि कैसे एक पूरी वेबसाइट को wget के साथ डाउनलोड किया जाता है, समस्या यह है कि आजकल के प्रशासक हमेशा किसी को अपनी पूरी वेबसाइट को वैसे ही डाउनलोड करने की अनुमति नहीं देते हैं, यह ऐसा कुछ नहीं है जो वे वास्तव में पसंद करते हैं ... और, जाहिर है मैं समझता हूं। इंटरनेट पर साइट यह परामर्श करने के लिए है, पाठक ब्याज की सामग्री का उपयोग करता है और साइट व्यवस्थापक को आर्थिक रूप से अच्छी तरह से लाभान्वित किया जाता है (विज्ञापन द्वारा), जैसा कि यात्राओं में, आदि। यदि पाठक साइट को अपने कंप्यूटर पर डाउनलोड करते हैं, तो उन्हें पिछले पोस्ट से परामर्श करने के लिए ऑनलाइन नहीं जाना होगा।

Wget वाली साइट को डाउनलोड करना उतना ही सरल है:

wget -r -k http://www.sitio.com

  • -r : यह इंगित करता है कि पूरी वेबसाइट डाउनलोड हो जाएगी।
  • -k : यह इंगित करता है कि डाउनलोड की गई साइट के लिंक बिना इंटरनेट के कंप्यूटर पर देखे जा सकेंगे।

अब, चीजें जटिल हो जाती हैं जब साइट प्रशासक हमारे लिए मुश्किल बनाता है ...

क्या प्रतिबंध हो सकता है?

सबसे आम जो हम पा सकते हैं, वह यह है कि साइट तक पहुंच केवल तभी दी जाती है यदि आपके पास कोई उपयोगकर्ता-मान्यता प्राप्त उपयोगकर्ता है। दूसरे शब्दों में, साइट यह पहचान लेगी कि इतने सारे पेजों को डाउनलोड करने वाला यूजरएजेंट "सामान्य" लोगों में से एक नहीं है और वह भी करीब पहुंच जाएगा।

इसके अलावा robots.txt फ़ाइल के माध्यम से आप निर्दिष्ट कर सकते हैं कि wget (एक गुच्छा अधिक समान क्षुधा की तरह) आप ग्राहक की इच्छानुसार डाउनलोड नहीं कर पाएंगे, ठीक है ... ठीक है, साइट व्यवस्थापक इसे चाहता है, अवधि able

इन प्रतिबंधों को कैसे दरकिनार किया जाए?

पहली स्थिति के लिए हम एक यूजरएगेट को स्थापित करने के लिए करेंगे, हम विकल्प के साथ ऐसा कर सकते हैं -उपभोक्ता अभिकर्ता, यहाँ मैं आपको दिखाता हूँ:

wget --user-Agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) गेको / 20140804164216 ArchLinux KDE फ़ायरफ़ॉक्स / 32.0b4" -r -site.com -k

अब, robots.txt के आस-पास जाने के लिए, बस उस फ़ाइल को बाहर करें, अर्थात, साइट को डाउनलोड करने दें और ध्यान रखें कि robots.txt क्या है:

wget --user-agent = "मोज़िला / 5.0 (X11; Linux amd64; rv: 32.0b4) गेको / 20140804164216 ArchLinux KDE फ़ायरफ़ॉक्स / 32.0b4" -r -sr.com.com -k -e रोबोट = बंद

अब ... ऐसे अन्य विकल्प या पैरामीटर हैं जिनका उपयोग हम साइट को और भी अधिक धोखा देने के लिए कर सकते हैं, उदाहरण के लिए, इंगित करें कि हम Google से साइट में प्रवेश करते हैं, यहां मैं सब कुछ के साथ अंतिम पंक्ति छोड़ता हूं:

wget --header = "Accept: text / html" --user-agent = "मोज़िला / 5.0 (XSD) (amd11; rv: 64b32.0) गेको / 4 ArchLinux -DE फ़ायरफ़ॉक्स / 20140804164216b32.0" --referer = http: / /www.google.com -r http://www.site.com -e रोबोट = ऑफ -क

यह अनिवार्य नहीं है कि साइट में शुरुआत में http: // www शामिल हो, यह एक सीधे http: // हो सकता है, उदाहरण के लिए यह एक रेखागणित डैश

क्या ऐसा करना ठीक है?

यह निर्भर करता है ... आपको इसे हमेशा साइट व्यवस्थापक से, लेकिन पाठक से दोनों ही दृष्टिकोणों से देखना होगा।

एक तरफ, एक प्रशासक के रूप में, मैं यह नहीं चाहूंगा कि वे मेरी साइट की एक HTML प्रति ठीक उसी तरह ले रहे हैं, यह यहाँ ऑनलाइन है आनंद के लिए नहीं, सभी के आनंद के लिए ... हमारा लक्ष्य दिलचस्प सामग्री रखना है आपके लिए उपलब्ध है, जो आप सीख सकते हैं।

लेकिन, दूसरी तरफ ... ऐसे उपयोगकर्ता हैं जिनके पास घर पर इंटरनेट नहीं है, जो हमारे द्वारा डाले गए संपूर्ण ट्यूटोरियल अनुभाग को पसंद करेंगे ... मैंने खुद को उनके स्थान पर रखा (वास्तव में मैं हूं, क्योंकि घर पर मेरे पास इंटरनेट नहीं है) और यह कंप्यूटर पर होना, समस्या होने या कुछ करने की इच्छा न होना और आपके नेटवर्क के नेटवर्क तक पहुंच नहीं होने के कारण सक्षम नहीं होना सुखद नहीं है।

चाहे वह सही हो या गलत, प्रत्येक व्यवस्थापक पर निर्भर है, हर एक की वास्तविकता ... मुझे सबसे ज्यादा चिंता इस बात की होगी कि सर्वर पर किस कारण से संसाधनों की खपत होती है, लेकिन एक अच्छी कैश प्रणाली के साथ यह पर्याप्त होना चाहिए सर्वर को नुकसान नहीं होता है।

इंटरनेट

निष्कर्ष

Les pido que ahora no se pongan a estar todos descargando DesdeLinux JAJAJA!! Por ejemplo, mi novia me pidió que descargara unos trucos de Geometry Dash (algo así como Geometry Dash Cheats), no descargaré el sitio web completo, sino que simplemente abriré la página deseada y la guardaré en PDF o en HTML o algo así, eso es lo que les recomendaría a ustedes.

Si tienes algún tutorial de DesdeLinux que deseas guardar, guárdalo en tus marcadores, como HTML o PDF … pero, por uno o dos tutoriales no hace falta generar un tráfico y consumo excesivo en el servidor 😉

खैर कुछ नहीं, मुझे आशा है कि यह उपयोगी है ... अभिवादन


23 टिप्पणियाँ, तुम्हारा छोड़ दो

अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।

  1.   एलियोटाइम३००० कहा

    दिलचस्प टिप। मुझे नहीं पता था कि आप ऐसा कर सकते हैं।

  2.   Emmanuel कहा

    यह स्पष्ट रूप से है कि मेरे साथ दो बार क्या हुआ था, और यह निश्चित रूप से इसके कारण था। हालांकि, यह गति के कारणों (घर बनाम विश्वविद्यालय) के लिए था कि मैं उस तरह से सामग्री का उपयोग करना चाहता था। 😛
    सलाह के लिए धन्यवाद। सादर।

  3.   Gerardo कहा

    हममें से उन लोगों के लिए बहुत अच्छा है जिनके पास इंटरनेट नहीं है। निश्चित रूप से अच्छा ट्यूटोरियल।

  4.   क्विनोटो कहा

    बहुत ही रोचक लेख।
    प्रश्न: यह https साइटों के लिए कैसे किया जा सकता है?
    उपयोगकर्ता नाम और पासवर्ड के माध्यम से इसे प्रमाणित करने की आवश्यकता कहां है और साइट का एक बड़ा हिस्सा जावा में लिखा है?
    नमस्ते और धन्यवाद

  5.   जेलिबेशियम कहा

    और डाउनलोड कहाँ सहेजे गए हैं?

    1.    जेलिबेशियम कहा

      मैं अपने आप को जवाब देता हूं: व्यक्तिगत फ़ोल्डर में। लेकिन अब सवाल यह है कि ... क्या आप किसी तरह उसे बता सकते हैं कि सामग्री कहाँ से डाउनलोड करें?

      graciass

      1.    डैनियल कहा

        मुझे लगता है कि आप पहले उस फ़ोल्डर का उपयोग करते हैं जहां आप इसे सहेजना चाहते हैं और फिर आप wget चलाते हैं

  6.   क्रिस्टियन कहा

    क्वेरी ... और एक डेटाबेस "क्लोन" करने के लिए ऐसा कुछ होगा

  7.   xphnx कहा

    मुझे एक जिज्ञासा है, क्या आपको माइक्रो-नीच वेब्स के लिए लिंक देने के लिए पैसे मिलते हैं?

  8.   रूपर्टो कहा

    धन्यवाद् ... यही कि मैंने अपने सुअर के दिनों में बहुत सारे पोर्न डाउनलोड किए

  9.   अल्नाडो कहा

    अच्छा सुझाव। धन्यवाद

  10.   नल कहा

    बहुत अच्छा, मुझे प्रतिबंधों को दरकिनार करने के बारे में पसंद आया।

  11.   फ्रांज़ कहा

    उस मणि के लिए धन्यवाद:
    wget -header = »स्वीकार करें: टेक्स्ट / html» -उज़र-एजेंट = »मोज़िला / 5.0 (XSD / i11; rv: 686) गेको / 31 फ़ायरफ़ॉक्स / 20100101 re -referer = http: //www.google.com - आर https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e रोबोट = बंद

    wget -header = »स्वीकार करें: टेक्स्ट / html» -उज़र-एजेंट = »मोज़िला / 5.0 (XSD / i11; rv: 686) गेको / 31 फ़ायरफ़ॉक्स / 20100101 re -referer = http: //www.google.com - आर https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e रोबोट = बंद

    wget -header = »स्वीकार करें: टेक्स्ट / html» -उज़र-एजेंट = »मोज़िला / 5.0 (XSD / i11; rv: 686) गेको / 31 फ़ायरफ़ॉक्स / 20100101 re -referer = http: //www.google.com - आर https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e रोबोट = बंद

  12.   पालोमरस कहा

    बहुत दिलचस्प है.

  13.   ऑस्कर मेजा कहा

    wget उन अल्ट्रा-पावरफुल टूल में से एक है, थोड़े से टर्मिनल प्रोग्रामिंग के साथ आप अपनी खुद की Google-स्टाइल रोबोट बना सकते हैं, जो पेजों की सामग्री को डाउनलोड करना शुरू कर सकती है और इसे अपने डेटाबेस में स्टोर कर सकती है और जो भी आप चाहते हैं, बाद में उस डेटा के साथ कर सकते हैं।

  14.   कार्लोस जी कहा

    मुझे यह उपकरण बहुत दिलचस्प लगता है, मैंने कभी इसके मापदंडों पर ध्यान नहीं दिया था, मैं जानना चाहूंगा कि क्या एक «एक्स» पेज से सामग्री डाउनलोड करना संभव है, जिसमें आपको प्रवेश करने के लिए लॉग इन करना होगा, और यदि यह कहीं है तो इस साइट पर «एक्स» कोई वीडियो है, क्या मैं इसे भी डाउनलोड करूंगा, भले ही यह «एक्स» साइट से अलग सीडीएन का हो?

    यदि यह संभव था, तो एक साइट इस तरह के उपकरण से कैसे बचाती है

    नमस्ते!

  15.   एरिक ज़ानार्डी कहा

    शुभ रात्रि:

    मैं आपसे एक परामर्श के लिए लिख रहा हूं। मैंने इस लेख की अंतिम कमांड, लगभग 300MB जानकारी .. फ़ाइलों, .swf, .js, .html, पृष्ठ से डाउनलोड की। http://www.netacad.com/es वेनेजुएला के माराके में एक छोटे से कोर्स से जो मैंने किया था।

    मेरा सवाल है ... क्या फ्लैश एनिमेशन देखना संभव होगा?

    मैं "ग्लोबल कॉन्फ़िगरेशन" दर्ज करता हूं और जो विकल्प दिखाता है वह मुझे कॉन्फ़िगर करने की अनुमति नहीं देता है।

    मैं किसी भी प्रतिक्रिया की सराहना करता हूं।

    अग्रिम में धन्यवाद!

    1.    ADX कहा

      मेरे पास एक ही विवरण है, .swf को आधा डाउनलोड किया जाता है, यदि आप इसे छोड़ना चाहते हैं, तो मुझे जानकारी साझा करें। मैंने आखिरी कोशिश की थी कि सभी नेटकाड लिंक प्राप्त करने के लिए एक मकड़ी का उपयोग किया जाए लेकिन फिर भी।

  16.   एलेजांद्रो.हर्नांडेज़ कहा

    बहुत अच्छा !!! धन्यवाद।

  17.   एना कहा

    हैलो, अपने tuto के लिए धन्यवाद। मैं एक ब्लॉग डाउनलोड करने की कोशिश कर रहा हूं जिसमें मुझे एक पासवर्ड के साथ आमंत्रित किया जाता है, ताकि मैं इसे बिना कनेक्शन के घर से पढ़ सकूं। मैं इस कार्यक्रम का उपयोग करता हूं, और जाहिर है, मेरे पास ब्लॉग (वर्डप्रेस) का पासवर्ड है, लेकिन मुझे नहीं पता कि कैसे आगे बढ़ना है। क्या तुम मुझे दिखा सकते हो?
    अग्रिम में धन्यवाद और सबसे अच्छा सम्मान!

  18.   फ्रान कहा

    क्या शानदार पोस्ट है !!!

  19.   सेंटिआगो कहा

    उत्कृष्ट इसने मुझे बहुत सेवा दी है

  20.   फ्रान कहा

    मैं एम्बेड किए गए vimeo वीडियो के साथ एक वेबसाइट में लॉग इन हूं और उन्हें डाउनलोड करने का कोई तरीका नहीं है .. ऐसा लगता है जैसे vimeo उन्हें संरक्षित करता है। कोई विचार??