הורד אתר שלם עם wget גם אם יש מגבלות

מה זה wget?

שום דבר יותר טוב ויקיפדיה להסביר ממה מורכב כלי זה:

GNU Wget הוא כלי תוכנה חינמי המאפשר הורדה של תוכן משרתי אינטרנט בצורה פשוטה. שמו נגזר מהאינטרנט העולמי (w), ומ- "get" (באנגלית get), פירוש הדבר: get from the WWW.

נכון לעכשיו הוא תומך בהורדות באמצעות פרוטוקולי HTTP, HTTPS ו- FTP.

בין התכונות הבולטות ביותר שהוא מציע wget יש אפשרות להורדה קלה של מראות מורכבות רקורסיבית, המרה של קישורים להצגת תוכן HTML באופן מקומי, תמיכה ב- proxies ...

De wget כבר דיברנו מספיק כאן ב DesdeLinux. למעשה ya ראינו איך מורידים אתר שלם עם wget, הבעיה היא שכיום מנהלי מערכת לא תמיד מאפשרים לאף אחד להוריד את כל האתר שלהם בדיוק ככה, זה לא משהו שהם באמת אוהבים ... וברור שאני מבין. האתר נמצא באינטרנט בכדי להתייעץ איתו, הקורא ניגש לתכנים מעניינים ומנהל האתר נהנה מבחינה כלכלית טובה (מפרסום), כגון ביקורים וכו '. אם הקורא מוריד את האתר למחשב שלו, הוא לא יצטרך להיכנס לאינטרנט כדי להתייעץ עם פוסט שעבר.

הורדת אתר עם wget היא פשוטה כמו:

wget -r -k http://www.sitio.com

  • -r : זה מציין שהאתר כולו יורד.
  • -k : זה מצביע על כך שהקישורים של האתר שהורד יומרו להצגה במחשבים ללא אינטרנט.

כעת העניינים מסתבכים כאשר מנהל האתר מקשה עלינו ...

אילו מגבלות עשויות להתקיים?

הנפוץ ביותר שנוכל למצוא הוא שהגישה לאתר מותרת רק אם יש לך UserAgent מוכר. במילים אחרות, האתר יכיר בכך ש- UserAgent שמוריד עמודים רבים כל כך אינו אחד ה"רגילים "ולכן יסגור גישה.

גם דרך קובץ robots.txt תוכלו לציין את ה- wget הזה (כמו עוד הרבה אפליקציות דומות) לא תוכל להוריד כרצונו של הלקוח, ובכן ... ובכן, מנהל האתר רוצה זאת, נקודה

כיצד לעקוף את המגבלות הללו?

במקרה הראשון אנו מקימים UserAgent ל- wget, אנו יכולים לעשות זאת באמצעות האפשרות -סוכן משתמש, כאן אני מראה לך איך:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

עכשיו, כדי לעקוף את robots.txt, פשוט אל תכלול את הקובץ הזה, כלומר תן ל- wget להוריד את האתר ולא אכפת לי מה אומר robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e רובוטים = כבוי

עכשיו ... ישנן אפשרויות אחרות או פרמטרים שבהם נוכל להשתמש כדי לרמות את האתר עוד יותר, למשל, לציין שאנחנו נכנסים לאתר מגוגל, כאן אני משאיר את השורה הסופית עם הכל:

wget --header = "קבל: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" - referer = http: / /www.google.com -r http://www.site.com -e רובוטים = off -k

לא חובה שהאתר מכיל http: // www בהתחלה, זה יכול להיות ישירות http: // כמו למשל זה דאש גיאומטריה

האם זה בסדר לעשות זאת?

זה תלוי ... אתה תמיד צריך לראות את זה משתי נקודות המבט, ממנהל האתר אבל גם מהקורא.

מצד אחד, כמנהל, לא הייתי רוצה שהם לוקחים עותק HTML של האתר שלי בדיוק ככה, זה כאן באינטרנט לא להנאתנו, להנאת כולם ... המטרה שלנו היא שיהיה תוכן מעניין. זמין, שתוכלו ללמוד.

אבל, מצד שני ... יש משתמשים שאין להם אינטרנט בבית, שהיו רוצים לקבל את כל קטע ההדרכות שהכנסנו כאן ... שמתי את עצמי במקומם (למעשה אני כן, כי בבית אין לי אינטרנט) וזה לא נעים להיות במחשב, להיות עם בעיה או לרצות לעשות משהו ולא להיות מסוגל כי אין לך גישה לרשת הרשתות.

בין אם זה נכון או לא נכון תלוי בכל מנהל, המציאות של כל אחד ... מה שהכי מדאיג אותי יהיה צריכת המשאבים ש- wget גורמת בשרת, אבל עם מערכת מטמון טובה זה אמור להספיק לשרת לא. סובל.

אינטרנט

מסקנות

אני מבקש ממך לא להתחיל להוריד עכשיו. DesdeLinux HA HA HA!! לדוגמה, חברה שלי ביקשה ממני להוריד כמה צ'יטים של Geometry Dash (משהו כמו Geometry Dash Cheats), אני לא אוריד את כל האתר, אבל אני פשוט אפתח את העמוד הרצוי ואשמור אותו ב-PDF או HTML או משהו כזה. מה הייתי ממליץ לך.

אם יש לך הדרכה כלשהי DesdeLinux שאתה רוצה לשמור, שמור אותו בסימניות שלך, כ-HTML או PDF... אבל, עבור מדריך אחד או שניים אין צורך לייצר תנועה וצריכה מוגזמת בשרת 😉

ובכן כלום, אני מקווה שזה שימושי ... ברכות


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.

  1.   אליוטיים 3000 דיג'ו

    טיפ מעניין. לא ידעתי שאתה יכול לעשות את זה.

  2.   עמנואל דיג'ו

    זה במפורש מה שקרה לי פעמיים, וזה בוודאי בגלל זה. למרות שמסיבות מהירות (בית לעומת אוניברסיטה) רציתי לגשת לתוכן בצורה כזו. 😛
    תודה על העצה. בברכה.

  3.   חררדו דיג'ו

    נהדר לאלו מאיתנו שאין להם אינטרנט. בהחלט הדרכות טובות.

  4.   קווינוטו דיג'ו

    מאמר מעניין מאוד.
    שאלה: כיצד ניתן לעשות זאת עבור אתרי https?
    היכן נדרש לאמת באמצעות שם משתמש וסיסמה וגם חלק גדול מהאתר כתוב ב- java?
    ברכות ותודה

  5.   גליבריום דיג'ו

    ואיפה נשמרות ההורדות?

    1.    גליבריום דיג'ו

      אני עונה לעצמי: בתיקיה האישית. אבל עכשיו השאלה היא ... האם אתה יכול איכשהו להגיד לו איפה להוריד את התוכן?

      תודה

      1.    Daniel דיג'ו

        אני מניח שתתחיל לגשת לתיקיה שבה ברצונך לשמור אותה ואז להפעיל את wget

  6.   Cristian דיג'ו

    שאילתה ... ויהיה משהו כזה "לשכפל" מסד נתונים

  7.   xphnx דיג'ו

    יש לי סקרנות, האם אתה מקבל כסף על הצבת קישורים אלה לאתרי מיקרו-נישות?

  8.   רופרטו דיג'ו

    Wget מבורך ... ככה הורדתי הרבה פורנו בזמנים החזירים שלי xD

  9.   אלונאדו דיג'ו

    עצה טובה. תודה

  10.   NULL דיג'ו

    טוב מאוד, אהבתי את החלק בנושא עקיפת ההגבלות.

  11.   פרנץ דיג'ו

    תודה על אותה פנינה:
    wget –header = »קבל: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ – referer = http: //www.google.com - ר https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e רובוטים = כבוי

    wget –header = »קבל: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ – referer = http: //www.google.com - ר https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e רובוטים = כבוי

    wget –header = »קבל: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ – referer = http: //www.google.com - ר https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e רובוטים = כבוי

  12.   פאלומארס דיג'ו

    מאוד מעניין.

  13.   אוסקר מזה דיג'ו

    wget הוא אחד מאותם כלים חזקים במיוחד, עם מעט תכנות מסוף אתה יכול ליצור רובוט משלך בסגנון גוגל כדי להתחיל להוריד את תוכן הדפים ולאחסן אותו במסד הנתונים שלך ולעשות מה שאתה רוצה אחר כך עם הנתונים האלה.

  14.   קרלוס ג'י דיג'ו

    אני מוצא את הכלי הזה מאוד מעניין, מעולם לא שמתי לב לפרמטרים שלו, הייתי רוצה לדעת אם אפשר להוריד תוכן מדף «X» אליו אתה צריך להיות מחובר כדי להיכנס, ואם איפשהו בזה אתר «X» האם יש סרטון כלשהו, ​​האם הייתי מוריד אותו גם אם הוא שייך ל- CDN שונה מזה של האתר «X»?

    אם זה היה אפשרי, כיצד האתר מגן מפני כלי כזה?

    ברכות!

  15.   אריק זנארדי דיג'ו

    לילה טוב:

    אני כותב לך להתייעצות. הורדתי עם הפקודה האחרונה של מאמר זה, כמעט 300MB של מידע .. קבצים .swf, .js, .html, מהדף. http://www.netacad.com/es עם המשתמש שלי מקורס קטן שעשיתי במראקיי, ונצואלה.

    השאלה שלי היא ... האם ניתן יהיה לראות את הנפשות הפלאש?

    אני נכנס ל"תצורה גלובלית "והאפשרויות שהיא לא מציגה מאפשרות לי להגדיר.

    אני מעריך כל תגובה.

    תודה מראש!

    1.    ADX דיג'ו

      יש לי את אותו הפרט. .Swf מורידים חצי, אם אתה מצליח לדלג עליו, שתף אותי במידע. מה שניסיתי בפעם האחרונה היה להשתמש בעכביש כדי להשיג את כל הקישורים של netacad אבל עדיין .swf לא מסיים את ההורדה כמו שצריך

  16.   אלחנדרו.ורננדז דיג'ו

    טוב מאוד !!! תודה.

  17.   אנה דיג'ו

    שלום, תודה על טוטו שלך. אני מנסה להוריד בלוג בו אני מוזמן, עם סיסמה, כדי שאוכל לקרוא אותו מהבית באופן לא מקוון. אני משתמש בתוכנית זו, וברור שיש לי את הסיסמה של הבלוג (wordpress), אבל אני לא יודע איך להמשיך. תוכל להראות לי?
    תודה מראש וכל טוב!

  18.   פראן דיג'ו

    איזה פוסט נהדר !!!

  19.   סנטיאגו דיג'ו

    מעולה זה שירת אותי הרבה

  20.   פראן דיג'ו

    אני מחובר לאתר עם קטעי וידיאו משובצים ואין שום דרך להוריד אותם .. נראה כאילו וימו מגן עליהם. רעיונות כלשהם??