מה זה wget?
שום דבר יותר טוב ויקיפדיה להסביר ממה מורכב כלי זה:
GNU Wget הוא כלי תוכנה חינמי המאפשר הורדה של תוכן משרתי אינטרנט בצורה פשוטה. שמו נגזר מהאינטרנט העולמי (w), ומ- "get" (באנגלית get), פירוש הדבר: get from the WWW.
נכון לעכשיו הוא תומך בהורדות באמצעות פרוטוקולי HTTP, HTTPS ו- FTP.
בין התכונות הבולטות ביותר שהוא מציע wget יש אפשרות להורדה קלה של מראות מורכבות רקורסיבית, המרה של קישורים להצגת תוכן HTML באופן מקומי, תמיכה ב- proxies ...
De wget כבר דיברנו מספיק כאן ב DesdeLinux. למעשה ya ראינו איך מורידים אתר שלם עם wget, הבעיה היא שכיום מנהלי מערכת לא תמיד מאפשרים לאף אחד להוריד את כל האתר שלהם בדיוק ככה, זה לא משהו שהם באמת אוהבים ... וברור שאני מבין. האתר נמצא באינטרנט בכדי להתייעץ איתו, הקורא ניגש לתכנים מעניינים ומנהל האתר נהנה מבחינה כלכלית טובה (מפרסום), כגון ביקורים וכו '. אם הקורא מוריד את האתר למחשב שלו, הוא לא יצטרך להיכנס לאינטרנט כדי להתייעץ עם פוסט שעבר.
הורדת אתר עם wget היא פשוטה כמו:
wget -r -k http://www.sitio.com
- -r : זה מציין שהאתר כולו יורד.
- -k : זה מצביע על כך שהקישורים של האתר שהורד יומרו להצגה במחשבים ללא אינטרנט.
כעת העניינים מסתבכים כאשר מנהל האתר מקשה עלינו ...
אילו מגבלות עשויות להתקיים?
הנפוץ ביותר שנוכל למצוא הוא שהגישה לאתר מותרת רק אם יש לך UserAgent מוכר. במילים אחרות, האתר יכיר בכך ש- UserAgent שמוריד עמודים רבים כל כך אינו אחד ה"רגילים "ולכן יסגור גישה.
גם דרך קובץ robots.txt תוכלו לציין את ה- wget הזה (כמו עוד הרבה אפליקציות דומות) לא תוכל להוריד כרצונו של הלקוח, ובכן ... ובכן, מנהל האתר רוצה זאת, נקודה
כיצד לעקוף את המגבלות הללו?
במקרה הראשון אנו מקימים UserAgent ל- wget, אנו יכולים לעשות זאת באמצעות האפשרות -סוכן משתמש, כאן אני מראה לך איך:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
עכשיו, כדי לעקוף את robots.txt, פשוט אל תכלול את הקובץ הזה, כלומר תן ל- wget להוריד את האתר ולא אכפת לי מה אומר robots.txt:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e רובוטים = כבוי
עכשיו ... ישנן אפשרויות אחרות או פרמטרים שבהם נוכל להשתמש כדי לרמות את האתר עוד יותר, למשל, לציין שאנחנו נכנסים לאתר מגוגל, כאן אני משאיר את השורה הסופית עם הכל:
wget --header = "קבל: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" - referer = http: / /www.google.com -r http://www.site.com -e רובוטים = off -k
האם זה בסדר לעשות זאת?
זה תלוי ... אתה תמיד צריך לראות את זה משתי נקודות המבט, ממנהל האתר אבל גם מהקורא.
מצד אחד, כמנהל, לא הייתי רוצה שהם לוקחים עותק HTML של האתר שלי בדיוק ככה, זה כאן באינטרנט לא להנאתנו, להנאת כולם ... המטרה שלנו היא שיהיה תוכן מעניין. זמין, שתוכלו ללמוד.
אבל, מצד שני ... יש משתמשים שאין להם אינטרנט בבית, שהיו רוצים לקבל את כל קטע ההדרכות שהכנסנו כאן ... שמתי את עצמי במקומם (למעשה אני כן, כי בבית אין לי אינטרנט) וזה לא נעים להיות במחשב, להיות עם בעיה או לרצות לעשות משהו ולא להיות מסוגל כי אין לך גישה לרשת הרשתות.
בין אם זה נכון או לא נכון תלוי בכל מנהל, המציאות של כל אחד ... מה שהכי מדאיג אותי יהיה צריכת המשאבים ש- wget גורמת בשרת, אבל עם מערכת מטמון טובה זה אמור להספיק לשרת לא. סובל.
מסקנות
אני מבקש ממך לא להתחיל להוריד עכשיו. DesdeLinux HA HA HA!! לדוגמה, חברה שלי ביקשה ממני להוריד כמה צ'יטים של Geometry Dash (משהו כמו Geometry Dash Cheats), אני לא אוריד את כל האתר, אבל אני פשוט אפתח את העמוד הרצוי ואשמור אותו ב-PDF או HTML או משהו כזה. מה הייתי ממליץ לך.
אם יש לך הדרכה כלשהי DesdeLinux שאתה רוצה לשמור, שמור אותו בסימניות שלך, כ-HTML או PDF... אבל, עבור מדריך אחד או שניים אין צורך לייצר תנועה וצריכה מוגזמת בשרת 😉
ובכן כלום, אני מקווה שזה שימושי ... ברכות
טיפ מעניין. לא ידעתי שאתה יכול לעשות את זה.
זה במפורש מה שקרה לי פעמיים, וזה בוודאי בגלל זה. למרות שמסיבות מהירות (בית לעומת אוניברסיטה) רציתי לגשת לתוכן בצורה כזו. 😛
תודה על העצה. בברכה.
נהדר לאלו מאיתנו שאין להם אינטרנט. בהחלט הדרכות טובות.
מאמר מעניין מאוד.
שאלה: כיצד ניתן לעשות זאת עבור אתרי https?
היכן נדרש לאמת באמצעות שם משתמש וסיסמה וגם חלק גדול מהאתר כתוב ב- java?
ברכות ותודה
ואיפה נשמרות ההורדות?
אני עונה לעצמי: בתיקיה האישית. אבל עכשיו השאלה היא ... האם אתה יכול איכשהו להגיד לו איפה להוריד את התוכן?
תודה
אני מניח שתתחיל לגשת לתיקיה שבה ברצונך לשמור אותה ואז להפעיל את wget
שאילתה ... ויהיה משהו כזה "לשכפל" מסד נתונים
יש לי סקרנות, האם אתה מקבל כסף על הצבת קישורים אלה לאתרי מיקרו-נישות?
Wget מבורך ... ככה הורדתי הרבה פורנו בזמנים החזירים שלי xD
עצה טובה. תודה
טוב מאוד, אהבתי את החלק בנושא עקיפת ההגבלות.
תודה על אותה פנינה:
wget –header = »קבל: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ – referer = http: //www.google.com - ר https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e רובוטים = כבוי
wget –header = »קבל: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ – referer = http: //www.google.com - ר https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e רובוטים = כבוי
wget –header = »קבל: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ – referer = http: //www.google.com - ר https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e רובוטים = כבוי
מאוד מעניין.
wget הוא אחד מאותם כלים חזקים במיוחד, עם מעט תכנות מסוף אתה יכול ליצור רובוט משלך בסגנון גוגל כדי להתחיל להוריד את תוכן הדפים ולאחסן אותו במסד הנתונים שלך ולעשות מה שאתה רוצה אחר כך עם הנתונים האלה.
אני מוצא את הכלי הזה מאוד מעניין, מעולם לא שמתי לב לפרמטרים שלו, הייתי רוצה לדעת אם אפשר להוריד תוכן מדף «X» אליו אתה צריך להיות מחובר כדי להיכנס, ואם איפשהו בזה אתר «X» האם יש סרטון כלשהו, האם הייתי מוריד אותו גם אם הוא שייך ל- CDN שונה מזה של האתר «X»?
אם זה היה אפשרי, כיצד האתר מגן מפני כלי כזה?
ברכות!
לילה טוב:
אני כותב לך להתייעצות. הורדתי עם הפקודה האחרונה של מאמר זה, כמעט 300MB של מידע .. קבצים .swf, .js, .html, מהדף. http://www.netacad.com/es עם המשתמש שלי מקורס קטן שעשיתי במראקיי, ונצואלה.
השאלה שלי היא ... האם ניתן יהיה לראות את הנפשות הפלאש?
אני נכנס ל"תצורה גלובלית "והאפשרויות שהיא לא מציגה מאפשרות לי להגדיר.
אני מעריך כל תגובה.
תודה מראש!
יש לי את אותו הפרט. .Swf מורידים חצי, אם אתה מצליח לדלג עליו, שתף אותי במידע. מה שניסיתי בפעם האחרונה היה להשתמש בעכביש כדי להשיג את כל הקישורים של netacad אבל עדיין .swf לא מסיים את ההורדה כמו שצריך
טוב מאוד !!! תודה.
שלום, תודה על טוטו שלך. אני מנסה להוריד בלוג בו אני מוזמן, עם סיסמה, כדי שאוכל לקרוא אותו מהבית באופן לא מקוון. אני משתמש בתוכנית זו, וברור שיש לי את הסיסמה של הבלוג (wordpress), אבל אני לא יודע איך להמשיך. תוכל להראות לי?
תודה מראש וכל טוב!
איזה פוסט נהדר !!!
מעולה זה שירת אותי הרבה
אני מחובר לאתר עם קטעי וידיאו משובצים ואין שום דרך להוריד אותם .. נראה כאילו וימו מגן עליהם. רעיונות כלשהם??