अनुक्रमणिका
Wget क्या है?
इससे बेहतर कुछ भी नहीं विकिपीडिया यह समझाने के लिए कि इस उपकरण में क्या है:
जीएनयू Wget एक मुफ्त सॉफ्टवेयर टूल है जो वेब सर्वर से सामग्री को सरल तरीके से डाउनलोड करने की अनुमति देता है। इसका नाम वर्ल्ड वाइड वेब (डब्ल्यू), और "गेट" (अंग्रेजी में मिलता है) से निकला है, इसका मतलब है: डब्ल्यूडब्ल्यूडब्ल्यू से प्राप्त करें।
वर्तमान में यह HTTP, HTTPS और FTP प्रोटोकॉल का उपयोग कर डाउनलोड का समर्थन करता है।
सबसे उत्कृष्ट सुविधाओं में यह प्रदान करता है wget जटिल दर्पणों के पुन: डाउनलोड करने की संभावना है, स्थानीय स्तर पर HTML सामग्री प्रदर्शित करने के लिए लिंक का रूपांतरण, प्रॉक्सी के लिए समर्थन ...
De wget हम पहले से ही देसदेनलिनक्स में यहां पर्याप्त रूप से बोल चुके हैं। असल में ya हमने देखा था कि कैसे एक पूरी वेबसाइट को wget के साथ डाउनलोड किया जाता है, समस्या यह है कि आजकल के प्रशासक हमेशा किसी को अपनी पूरी वेबसाइट को वैसे ही डाउनलोड करने की अनुमति नहीं देते हैं, यह ऐसा कुछ नहीं है जो वे वास्तव में पसंद करते हैं ... और, जाहिर है मैं समझता हूं। इंटरनेट पर साइट यह परामर्श करने के लिए है, पाठक ब्याज की सामग्री का उपयोग करता है और साइट व्यवस्थापक को आर्थिक रूप से अच्छी तरह से लाभान्वित किया जाता है (विज्ञापन द्वारा), जैसा कि यात्राओं में, आदि। यदि पाठक साइट को अपने कंप्यूटर पर डाउनलोड करते हैं, तो उन्हें पिछले पोस्ट से परामर्श करने के लिए ऑनलाइन नहीं जाना होगा।
Wget वाली साइट को डाउनलोड करना उतना ही सरल है:
wget -r -k http://www.sitio.com
- -r : यह इंगित करता है कि पूरी वेबसाइट डाउनलोड हो जाएगी।
- -k : यह इंगित करता है कि डाउनलोड की गई साइट के लिंक बिना इंटरनेट के कंप्यूटर पर देखे जा सकेंगे।
अब, चीजें जटिल हो जाती हैं जब साइट प्रशासक हमारे लिए मुश्किल बनाता है ...
क्या प्रतिबंध हो सकता है?
सबसे आम जो हम पा सकते हैं, वह यह है कि साइट तक पहुंच केवल तभी दी जाती है यदि आपके पास कोई उपयोगकर्ता-मान्यता प्राप्त उपयोगकर्ता है। दूसरे शब्दों में, साइट यह पहचान लेगी कि इतने सारे पेजों को डाउनलोड करने वाला यूजरएजेंट "सामान्य" लोगों में से एक नहीं है और वह भी करीब पहुंच जाएगा।
इसके अलावा robots.txt फ़ाइल के माध्यम से आप निर्दिष्ट कर सकते हैं कि wget (एक गुच्छा अधिक समान क्षुधा की तरह) आप ग्राहक की इच्छानुसार डाउनलोड नहीं कर पाएंगे, ठीक है ... ठीक है, साइट व्यवस्थापक इसे चाहता है, अवधि able
इन प्रतिबंधों को कैसे दरकिनार किया जाए?
पहली स्थिति के लिए हम एक यूजरएगेट को स्थापित करने के लिए करेंगे, हम विकल्प के साथ ऐसा कर सकते हैं -उपभोक्ता अभिकर्ता, यहाँ मैं आपको दिखाता हूँ:
wget --user-Agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) गेको / 20140804164216 ArchLinux KDE फ़ायरफ़ॉक्स / 32.0b4" -r -site.com -k
अब, robots.txt के आस-पास जाने के लिए, बस उस फ़ाइल को बाहर करें, अर्थात, साइट को डाउनलोड करने दें और ध्यान रखें कि robots.txt क्या है:
wget --user-agent = "मोज़िला / 5.0 (X11; Linux amd64; rv: 32.0b4) गेको / 20140804164216 ArchLinux KDE फ़ायरफ़ॉक्स / 32.0b4" -r -sr.com.com -k -e रोबोट = बंद
अब ... ऐसे अन्य विकल्प या पैरामीटर हैं जिनका उपयोग हम साइट को और भी अधिक धोखा देने के लिए कर सकते हैं, उदाहरण के लिए, इंगित करें कि हम Google से साइट में प्रवेश करते हैं, यहां मैं सब कुछ के साथ अंतिम पंक्ति छोड़ता हूं:
wget --header = "Accept: text / html" --user-agent = "मोज़िला / 5.0 (XSD) (amd11; rv: 64b32.0) गेको / 4 ArchLinux -DE फ़ायरफ़ॉक्स / 20140804164216b32.0" --referer = http: / /www.google.com -r http://www.site.com -e रोबोट = ऑफ -क
क्या ऐसा करना ठीक है?
यह निर्भर करता है ... आपको इसे हमेशा साइट व्यवस्थापक से, लेकिन पाठक से दोनों ही दृष्टिकोणों से देखना होगा।
एक तरफ, एक प्रशासक के रूप में, मैं यह नहीं चाहूंगा कि वे मेरी साइट की एक HTML प्रति ठीक उसी तरह ले रहे हैं, यह यहाँ ऑनलाइन है आनंद के लिए नहीं, सभी के आनंद के लिए ... हमारा लक्ष्य दिलचस्प सामग्री रखना है आपके लिए उपलब्ध है, जो आप सीख सकते हैं।
लेकिन, दूसरी तरफ ... ऐसे उपयोगकर्ता हैं जिनके पास घर पर इंटरनेट नहीं है, जो हमारे द्वारा डाले गए संपूर्ण ट्यूटोरियल अनुभाग को पसंद करेंगे ... मैंने खुद को उनके स्थान पर रखा (वास्तव में मैं हूं, क्योंकि घर पर मेरे पास इंटरनेट नहीं है) और यह कंप्यूटर पर होना, समस्या होने या कुछ करने की इच्छा न होना और आपके नेटवर्क के नेटवर्क तक पहुंच नहीं होने के कारण सक्षम नहीं होना सुखद नहीं है।
चाहे वह सही हो या गलत, प्रत्येक व्यवस्थापक पर निर्भर है, हर एक की वास्तविकता ... मुझे सबसे ज्यादा चिंता इस बात की होगी कि सर्वर पर किस कारण से संसाधनों की खपत होती है, लेकिन एक अच्छी कैश प्रणाली के साथ यह पर्याप्त होना चाहिए सर्वर को नुकसान नहीं होता है।
निष्कर्ष
मैं आपसे पूछता हूं कि अब लिनक्स से डाउनलोड करना शुरू न करें, HAHAHA! उदाहरण के लिए, मेरी प्रेमिका ने मुझसे कुछ ज्योमेट्री डैश चीट्स (कुछ कुछ ज्योमेट्री डेश चेयट्स) डाउनलोड करने के लिए कहा, मैं पूरी वेबसाइट को डाउनलोड नहीं करूंगी, लेकिन सिर्फ वांछित पेज खोलें और इसे पीडीएफ या एचटीएमएल या कुछ इस तरह से सेव करें कि मैं क्या करूं। आपको सलाह देते हैं।
यदि आपके पास एक DesdeLinux ट्यूटोरियल है जिसे आप अपने बुकमार्क में सहेजना चाहते हैं, जैसे कि HTML या PDF ..., लेकिन एक या दो ट्यूटोरियल के लिए सर्वर पर अत्यधिक ट्रैफ़िक और खपत उत्पन्न करना आवश्यक नहीं है de
खैर कुछ नहीं, मुझे आशा है कि यह उपयोगी है ... अभिवादन
23 टिप्पणियाँ, तुम्हारा छोड़ दो
दिलचस्प टिप। मुझे नहीं पता था कि आप ऐसा कर सकते हैं।
यह स्पष्ट रूप से है कि मेरे साथ दो बार क्या हुआ था, और यह निश्चित रूप से इसके कारण था। हालांकि, यह गति के कारणों (घर बनाम विश्वविद्यालय) के लिए था कि मैं उस तरह से सामग्री का उपयोग करना चाहता था। 😛
सलाह के लिए धन्यवाद। सादर।
हममें से उन लोगों के लिए बहुत अच्छा है जिनके पास इंटरनेट नहीं है। निश्चित रूप से अच्छा ट्यूटोरियल।
बहुत ही रोचक लेख।
प्रश्न: यह https साइटों के लिए कैसे किया जा सकता है?
उपयोगकर्ता नाम और पासवर्ड के माध्यम से इसे प्रमाणित करने की आवश्यकता कहां है और साइट का एक बड़ा हिस्सा जावा में लिखा है?
नमस्ते और धन्यवाद
और डाउनलोड कहाँ सहेजे गए हैं?
मैं अपने आप को जवाब देता हूं: व्यक्तिगत फ़ोल्डर में। लेकिन अब सवाल यह है कि ... क्या आप किसी तरह उसे बता सकते हैं कि सामग्री कहाँ से डाउनलोड करें?
graciass
मुझे लगता है कि आप पहले उस फ़ोल्डर का उपयोग करते हैं जहां आप इसे सहेजना चाहते हैं और फिर आप wget चलाते हैं
क्वेरी ... और एक डेटाबेस "क्लोन" करने के लिए ऐसा कुछ होगा
मुझे एक जिज्ञासा है, क्या आपको माइक्रो-नीच वेब्स के लिए लिंक देने के लिए पैसे मिलते हैं?
धन्यवाद् ... यही कि मैंने अपने सुअर के दिनों में बहुत सारे पोर्न डाउनलोड किए
अच्छा सुझाव। धन्यवाद
बहुत अच्छा, मुझे प्रतिबंधों को दरकिनार करने के बारे में पसंद आया।
उस मणि के लिए धन्यवाद:
wget -header = »स्वीकार करें: टेक्स्ट / html» -उज़र-एजेंट = »मोज़िला / 5.0 (XSD / i11; rv: 686) गेको / 31 फ़ायरफ़ॉक्स / 20100101 re -referer = http: //www.google.com - आर https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e रोबोट = बंद
wget -header = »स्वीकार करें: टेक्स्ट / html» -उज़र-एजेंट = »मोज़िला / 5.0 (XSD / i11; rv: 686) गेको / 31 फ़ायरफ़ॉक्स / 20100101 re -referer = http: //www.google.com - आर https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e रोबोट = बंद
wget -header = »स्वीकार करें: टेक्स्ट / html» -उज़र-एजेंट = »मोज़िला / 5.0 (XSD / i11; rv: 686) गेको / 31 फ़ायरफ़ॉक्स / 20100101 re -referer = http: //www.google.com - आर https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e रोबोट = बंद
बहुत दिलचस्प है.
wget उन अल्ट्रा-पावरफुल टूल में से एक है, थोड़े से टर्मिनल प्रोग्रामिंग के साथ आप अपनी खुद की Google-स्टाइल रोबोट बना सकते हैं, जो पेजों की सामग्री को डाउनलोड करना शुरू कर सकती है और इसे अपने डेटाबेस में स्टोर कर सकती है और जो भी आप चाहते हैं, बाद में उस डेटा के साथ कर सकते हैं।
मुझे यह उपकरण बहुत दिलचस्प लगता है, मैंने कभी इसके मापदंडों पर ध्यान नहीं दिया था, मैं जानना चाहूंगा कि क्या एक «एक्स» पेज से सामग्री डाउनलोड करना संभव है, जिसमें आपको प्रवेश करने के लिए लॉग इन करना होगा, और यदि यह कहीं है तो इस साइट पर «एक्स» कोई वीडियो है, क्या मैं इसे भी डाउनलोड करूंगा, भले ही यह «एक्स» साइट से अलग सीडीएन का हो?
यदि यह संभव था, तो एक साइट इस तरह के उपकरण से कैसे बचाती है
नमस्ते!
शुभ रात्रि:
मैं आपसे एक परामर्श के लिए लिख रहा हूं। मैंने इस लेख की अंतिम कमांड, लगभग 300MB जानकारी .. फ़ाइलों, .swf, .js, .html, पृष्ठ से डाउनलोड की। http://www.netacad.com/es वेनेजुएला के माराके में एक छोटे से कोर्स से जो मैंने किया था।
मेरा सवाल है ... क्या फ्लैश एनिमेशन देखना संभव होगा?
मैं "ग्लोबल कॉन्फ़िगरेशन" दर्ज करता हूं और जो विकल्प दिखाता है वह मुझे कॉन्फ़िगर करने की अनुमति नहीं देता है।
मैं किसी भी प्रतिक्रिया की सराहना करता हूं।
अग्रिम में धन्यवाद!
मेरे पास एक ही विवरण है, .swf को आधा डाउनलोड किया जाता है, यदि आप इसे छोड़ना चाहते हैं, तो मुझे जानकारी साझा करें। मैंने आखिरी कोशिश की थी कि सभी नेटकाड लिंक प्राप्त करने के लिए एक मकड़ी का उपयोग किया जाए लेकिन फिर भी।
बहुत अच्छा !!! धन्यवाद।
हैलो, अपने tuto के लिए धन्यवाद। मैं एक ब्लॉग डाउनलोड करने की कोशिश कर रहा हूं जिसमें मुझे एक पासवर्ड के साथ आमंत्रित किया जाता है, ताकि मैं इसे बिना कनेक्शन के घर से पढ़ सकूं। मैं इस कार्यक्रम का उपयोग करता हूं, और जाहिर है, मेरे पास ब्लॉग (वर्डप्रेस) का पासवर्ड है, लेकिन मुझे नहीं पता कि कैसे आगे बढ़ना है। क्या तुम मुझे दिखा सकते हो?
अग्रिम में धन्यवाद और सबसे अच्छा सम्मान!
क्या शानदार पोस्ट है !!!
उत्कृष्ट इसने मुझे बहुत सेवा दी है
मैं एम्बेड किए गए vimeo वीडियो के साथ एक वेबसाइट में लॉग इन हूं और उन्हें डाउनलोड करने का कोई तरीका नहीं है .. ऐसा लगता है जैसे vimeo उन्हें संरक्षित करता है। कोई विचार??