قم بتنزيل موقع كامل باستخدام wget حتى إذا كانت هناك قيود

ما هو wget؟

لا شيء أفضل من ويكيبيديا لشرح ما تتكون منه هذه الأداة:

جنو هي أداة برمجية مجانية تسمح بتنزيل المحتوى من خوادم الويب بطريقة بسيطة. اسمها مشتق من شبكة الويب العالمية (w) ، ومن "get" (باللغة الإنجليزية get) ، وهذا يعني: الحصول على من WWW.

يدعم حاليًا التنزيلات باستخدام بروتوكولات HTTP و HTTPS و FTP.

من بين أبرز الميزات التي يقدمها مجلد مشترك هناك إمكانية التنزيل السهل للمرايا المعقدة بشكل متكرر ، وتحويل الروابط لعرض محتوى HTML محليًا ، ودعم البروكسيات ...

De مجلد مشترك لقد تحدثنا بالفعل بما فيه الكفاية هنا في DesdeLinux. في الحقيقة ya لقد رأينا كيفية تنزيل موقع ويب كامل باستخدام wget ، والمشكلة هي أن المسؤولين في الوقت الحاضر لا يسمحون دائمًا لأي شخص بتنزيل موقعه بالكامل على هذا النحو ، فهو ليس شيئًا يحبه حقًا ... ومن الواضح أنني أفهم. الموقع موجود على الإنترنت للتشاور معه ، ويصل القارئ إلى المحتوى الذي يثير الاهتمام ويستفيد مدير الموقع جيدًا اقتصاديًا (عن طريق الإعلان) ، كما في الزيارات ، إلخ. إذا قام القارئ بتنزيل الموقع على جهاز الكمبيوتر الخاص به ، فلن يضطر إلى الاتصال بالإنترنت للرجوع إلى منشور سابق.

يعد تنزيل موقع باستخدام wget أمرًا بسيطًا مثل:

wget -r -k http://www.sitio.com

  • -r : يشير هذا إلى أنه سيتم تنزيل موقع الويب بالكامل.
  • -k : يشير هذا إلى أنه سيتم تحويل روابط الموقع الذي تم تنزيله ليتم عرضها على أجهزة كمبيوتر بدون إنترنت.

الآن ، تتعقد الأمور عندما يجعل مدير الموقع الأمر صعبًا علينا ...

ما هي القيود التي قد توجد؟

أكثر الأشياء شيوعًا التي يمكن أن نجدها هي أن الوصول إلى الموقع مسموح به فقط إذا كان لديك UserAgent معترف به. بمعنى آخر ، سيتعرف الموقع على أن UserAgent الذي يقوم بتنزيل العديد من الصفحات ليس من الصفحات "العادية" وبالتالي سيغلق الوصول.

أيضًا من خلال ملف robots.txt ، يمكنك تحديد هذا wget (مثل مجموعة من التطبيقات المشابهة) لن تتمكن من التنزيل كما يشاء العميل ، حسنًا ... حسنًا ، مدير الموقع يريده ، فترة period

كيف يتم التحايل على هذه القيود؟

في الحالة الأولى ، سننشئ UserAgent على wget ، يمكننا القيام بذلك باستخدام الخيار -وكيل المستخدم، هنا أريكم كيف:

wget --user-agent = "Mozilla / 5.0 (X11؛ Linux amd64؛ rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

الآن ، للالتفاف حول ملف robots.txt ، ما عليك سوى استبعاد هذا الملف ، أي السماح لـ wget بتنزيل الموقع ولا تهتم بما يقوله robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11؛ Linux amd64؛ rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

الآن ... هناك خيارات أو معلمات أخرى يمكننا استخدامها لمزيد من خداع الموقع ، على سبيل المثال ، الإشارة إلى أننا ندخل الموقع من Google ، وهنا أترك السطر الأخير بكل شيء:

wget --header = "Accept: text / html" --user-agent = "Mozilla / 5.0 (X11؛ Linux amd64؛ rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" - المرجع = http: / /www.google.com -r http://www.site.com -e robots = off -k

ليس من الضروري أن يحتوي الموقع على http: // www في البداية ، يمكن أن يكون أحد http: // مباشرة مثل هذا الموقع على سبيل المثال هندسة داش

هل هو موافق للقيام بذلك؟

هذا يعتمد ... عليك دائمًا رؤيته من كلا وجهتي النظر ، من مسؤول الموقع ولكن أيضًا من القارئ.

من ناحية ، بصفتي مشرفًا ، لا أحب أن يأخذوا نسخة HTML من موقعي تمامًا مثل هذا ، فهو موجود هنا عبر الإنترنت ليس من أجل المتعة ، من أجل الاستمتاع بالجميع ... هدفنا هو توفير محتوى مثير للاهتمام لك ، يمكنك تعلمه.

ولكن ، من ناحية أخرى ... هناك مستخدمون ليس لديهم إنترنت في المنزل ، والذين يرغبون في الحصول على قسم البرامج التعليمية بالكامل الذي وضعناه هنا ... أضع نفسي في مكانهم (في الحقيقة أنا كذلك ، لأنه في المنزل ليس لدي إنترنت) وليس من الجيد أن تكون على الكمبيوتر أو تواجه مشكلة أو ترغب في القيام بشيء ما ولا تكون قادرًا على ذلك لأنه لا يمكنك الوصول إلى شبكة الشبكات.

سواء كان ذلك صحيحًا أم خطأ ، فإن الأمر متروك لكل مسؤول ، وواقع كل واحد ... أكثر ما يقلقني هو استهلاك الموارد الذي يسببه wget على الخادم ، ولكن مع نظام ذاكرة تخزين مؤقت جيد ، يجب أن يكون ذلك كافيًا لـ الخادم لا يعاني.

الإنترنت

استنتاجات

أطلب منك عدم البدء في التنزيل الآن. DesdeLinux ها ها ها ها!! على سبيل المثال، طلبت مني صديقتي تنزيل بعض غش Geometry Dash (شيء مثل Geometry Dash Cheats)، ولن أقوم بتنزيل موقع الويب بأكمله، ولكن سأفتح الصفحة المطلوبة فقط وأحفظها بصيغة PDF أو HTML أو شيء من هذا القبيل، هذا هو ما أود أن أوصي لك.

إذا كان لديك أي البرنامج التعليمي DesdeLinux الذي تريد حفظه، احفظه في إشاراتك المرجعية، بتنسيق HTML أو PDF... ولكن بالنسبة لبرنامج تعليمي واحد أو اثنين، ليس من الضروري توليد حركة مرور واستهلاك زائدين على الخادم 😉

حسنًا ، لا شيء ، أتمنى أن يكون مفيدًا ... تحياتي


23 تعليقات ، اترك لك

اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.

  1.   إليوتيمي 3000 قال

    نصيحة مثيرة للاهتمام. لم أكن أعلم أنه يمكنك فعل ذلك.

  2.   ايمانويل قال

    إنه صراحة ما حدث لي مرتين ، وكان بالتأكيد بسببه. على الرغم من أنني كنت أرغب في الوصول إلى المحتوى بهذه الطريقة لأسباب تتعلق بالسرعة (المنزل مقابل الجامعة). 😛
    شكرا على النصيحة. مع تحياتي.

  3.   جيراردو قال

    عظيم لأولئك منا الذين ليس لديهم إنترنت. بالتأكيد دروس جيدة.

  4.   كوينوتو قال

    مقال مشوق جدا.
    سؤال: كيف يتم ذلك لمواقع https؟
    أين هو مطلوب للمصادقة عن طريق اسم المستخدم وكلمة المرور وأيضًا جزء كبير من الموقع مكتوب بلغة جافا؟
    تحياتي وشكري

  5.   الجليباسيوم قال

    وأين يتم حفظ التنزيلات؟

    1.    الجليباسيوم قال

      أجيب بنفسي: في الملف الشخصي. ولكن السؤال الآن هو ... هل يمكنك أن تخبره بطريقة أو بأخرى عن مكان تنزيل المحتوى؟

      graciass

      1.    دانيال قال

        أعتقد أنك تصل أولاً إلى المجلد الذي تريد حفظه فيه ثم تقوم بتشغيل wget

  6.   كريستيان قال

    الاستعلام ... وسيكون هناك شيء مثل هذا "لاستنساخ" قاعدة بيانات

  7.   com.xphnx قال

    لدي فضول ، هل تحصل على أموال مقابل وضع تلك الروابط على الشبكات الصغيرة؟

  8.   روبرتو قال

    wget المبارك ... هكذا قمت بتنزيل الكثير من المواد الإباحية في أيام الخنازير xD

  9.   ألونادو قال

    نصيحة جيدة. شكرا

  10.   اغية قال

    جيد جدًا ، أحببت الجزء المتعلق بالتغلب على القيود.

  11.   فرانز قال

    شكرا على تلك الأحجار الكريمة:
    wget –header = »قبول: text / html» –user-agent = »Mozilla / 5.0 (X11؛ Linux i686؛ rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - ص https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e الروبوتات = معطلة

    wget –header = »قبول: text / html» –user-agent = »Mozilla / 5.0 (X11؛ Linux i686؛ rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - ص https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e الروبوتات = معطلة

    wget –header = »قبول: text / html» –user-agent = »Mozilla / 5.0 (X11؛ Linux i686؛ rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - ص https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e الروبوتات = معطلة

  12.   بالوماريس قال

    مثيرة جدا للاهتمام.

  13.   اوسكار ميزا قال

    تعد wget واحدة من تلك الأدوات فائقة القوة ، مع القليل من البرمجة الطرفية ، يمكنك إنشاء الروبوت الخاص بك على غرار google لبدء تنزيل محتوى الصفحات وتخزينه في قاعدة البيانات الخاصة بك والقيام بكل ما تريد لاحقًا باستخدام تلك البيانات.

  14.   كارلوس جي قال

    أجد هذه الأداة ممتعة للغاية ، ولم أكن أبدًا اهتماما بمعاييرها ، وأود أن أعرف ما إذا كان من الممكن تنزيل المحتوى من صفحة «X» التي تحتاج إلى تسجيل الدخول للدخول إليها ، وإذا كان في مكان ما على هذا الموقع «X» ، هل يوجد أي فيديو ، هل يمكنني أيضًا تنزيله حتى لو كان ينتمي إلى شبكة CDN مختلفة عن موقع «X»؟

    إذا كان هذا ممكنًا ، فكيف يحمي الموقع من هذه الأداة؟

    تحيات!

  15.   إريك زاناردي قال

    تصبح على خير:

    أنا أكتب إليكم للتشاور. قمت بتنزيل ما يقرب من 300 ميجابايت من المعلومات بأمر آخر من هذه المقالة .. ملفات .swf ، .js ، .html ، من الصفحة http://www.netacad.com/es مع المستخدم الخاص بي من دورة تدريبية صغيرة قمت بها في ماراكاي ، فنزويلا.

    سؤالي هو ... هل سيكون من الممكن مشاهدة رسوم الفلاش المتحركة؟

    أدخل "التكوين العام" والخيارات التي لا تظهر لا تسمح لي بتكوينها.

    أنا أقدر أي رد.

    ويرجع الفضل في ذلك مسبقا!

    1.    ADX قال

      لدي نفس التفاصيل ، يتم تنزيل النصف .swf ، إذا تمكنت من تخطي ذلك ، فقم بمشاركة المعلومات معي آخر ما جربته هو استخدام العنكبوت للحصول على جميع روابط netacad ولكن لا يزال .swf لا ينتهي من التنزيل كما ينبغي

  16.   الكسندر.هيرنانديز قال

    جيد جدا !!! شكرا.

  17.   آنا قال

    مرحبا ، شكرا لتوتو الخاص بك. أحاول تنزيل مدونة حيث تمت دعوتي ، بكلمة مرور ، حتى أتمكن من قراءتها من المنزل دون اتصال. أنا أستخدم هذا البرنامج ، ومن الواضح أن لدي كلمة مرور المدونة (ووردبريس) ، لكنني لا أعرف كيفية المتابعة. هل يمكن أن تريني؟
    شكرا مقدما ومع أطيب التحيات!

  18.   فران قال

    يا له من وظيفة رائعة !!!

  19.   سانتياغو قال

    ممتاز لقد خدمني كثيرا

  20.   فران قال

    لقد قمت بتسجيل الدخول إلى موقع ويب يحتوي على مقاطع فيديو vimeo مضمنة ولا توجد طريقة لتنزيلها .. يبدو كما لو أن vimeo يتمتع بالحماية. أيه أفكار؟؟