සීමාවන් තිබුණත් wget සමඟ සම්පූර්ණ වෙබ් අඩවියක් බාගන්න

Wget යනු කුමක්ද?

ඊට වඩා හොඳ කිසිවක් නැත විකිපීඩියා මෙම මෙවලම සමන්විත වන්නේ කුමක් ද යන්න පැහැදිලි කිරීමට:

GNU Wget වෙබ් සේවාදායකයන්ගෙන් අන්තර්ගතය සරල ආකාරයකින් බාගත කිරීමට ඉඩ දෙන නිදහස් මෘදුකාංග මෙවලමකි. එහි නම ලෝක ව්‍යාප්ත වෙබ් (w) වෙතින් වන අතර "ලබා ගන්න" (ඉංග්‍රීසියෙන් ලබා ගන්න) යන්නෙන් මෙයින් අදහස් වන්නේ: WWW වෙතින් ලබා ගන්න.

දැනට එය HTTP, HTTPS සහ FTP ප්‍රොටෝකෝල භාවිතා කරමින් බාගැනීම් සඳහා සහය දක්වයි.

එය සපයන වඩාත්ම කැපී පෙනෙන ලක්ෂණ අතර ඩී සංකීර්ණ දර්පණ පහසුවෙන් නැවත නැවත බාගත කිරීමේ හැකියාව ඇත, HTML අන්තර්ගතය දේශීයව ප්‍රදර්ශනය කිරීම සඳහා සබැඳි පරිවර්තනය කිරීම, ප්‍රොක්සි සඳහා සහාය ...

De ඩී අපි දැනටමත් ඩෙස්ඩෙලිනක්ස් හි ප්‍රමාණවත් තරම් කතා කර ඇත්තෙමු. ඇත්තටම ya Wget සමඟ සම්පූර්ණ වෙබ් අඩවියක් බාගත කරන්නේ කෙසේදැයි අපි දැක ඇත්තෙමු, ගැටලුව වන්නේ වර්තමානයේ පරිපාලකයින් සෑම විටම කිසිවෙකුට ඔවුන්ගේ මුළු වෙබ් අඩවියම ඒ ආකාරයෙන්ම බාගත කර ගැනීමට ඉඩ නොදීමයි, එය ඔවුන් සැබවින්ම කැමති දෙයක් නොවේ ... සහ, පැහැදිලිවම මට වැටහේ. වෙබ් අඩවිය එය විමසීමට අන්තර්ජාලයේ ඇත, පා er කයා උනන්දුවක් දක්වන අන්තර්ගතයට ප්‍රවේශ වන අතර අඩවි පරිපාලක විසින් සංචාරයන් වැනි මූල්‍යමය වශයෙන් (වෙළඳ දැන්වීම් හරහා) ප්‍රතිලාභ ලබයි. පා er කයා තම පරිගණකයට වෙබ් අඩවිය බාගත කරන්නේ නම්, ඔහුට අතීත සටහනක් විමසීමට අන්තර්ජාලයට යාමට අවශ්‍ය නොවනු ඇත.

Wget සහිත වෙබ් අඩවියක් බාගත කිරීම තරම් සරල ය:

wget -r -k http://www.sitio.com

  • -r : මෙයින් ඇඟවෙන්නේ මුළු වෙබ් අඩවියම බාගත කරන බවයි.
  • -k : මෙයින් ඇඟවෙන්නේ බාගත කළ වෙබ් අඩවියේ සබැඳි අන්තර්ජාලය නොමැතිව පරිගණකවල දැකිය හැකි බවට පරිවර්තනය වන බවයි.

දැන්, අඩවි පරිපාලක අපට අපහසු වන විට දේවල් සංකීර්ණ වේ ...

පැවතිය හැකි සීමාවන් මොනවාද?

අපට සොයාගත හැකි වඩාත් සුලභ වන්නේ වෙබ් අඩවියට පිවිසීමට අවසර ඇත්තේ ඔබ පිළිගත් පරිශීලක නියෝජිතයෙකු සිටී නම් පමණි. වෙනත් වචන වලින් කිවහොත්, බොහෝ පිටු බාගත කරන පරිශීලක ඒජන්ට් "සාමාන්‍ය" එකක් නොවන බවත් එම නිසා ප්‍රවේශය වසා දමනු ඇති බවත් වෙබ් අඩවිය හඳුනා ගනී.

Robots.txt ගොනුව හරහාද ඔබට එම wget නියම කළ හැකිය (පොකුරක් සමාන යෙදුම්) සේවාදායකයාගේ අභිමතය පරිදි ඔබට බාගත කිරීමට නොහැකි වනු ඇත, හොඳයි ... හොඳයි, අඩවි පරිපාලකයාට එය අවශ්‍යයි, කාල සීමාව

මෙම සීමාවන් මඟහරවා ගන්නේ කෙසේද?

පළමු අවස්ථාව සඳහා අපි wget කිරීමට UserAgent ස්ථාපනය කරන්නෙමු, අපට මෙය විකල්පය සමඟ කළ හැකිය පරිශීලක-නියෝජිත, මෙන්න මම ඔබට පෙන්වන්නේ කෙසේද:

wget --user-agent = "මොසිල්ලා / 5.0 (X11; ලිනක්ස් amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

දැන්, robots.txt වටා යෑමට, එම ගොනුව බැහැර කරන්න, එනම්, වෙබ් අඩවිය බාගත කිරීමට wget ට ඉඩ දෙන්න, robots.txt පවසන දේ ගැන සැලකිලිමත් නොවන්න:

wget --user-agent = "මොසිල්ලා / 5.0 (X11; ලිනක්ස් amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

දැන් ... වෙබ් අඩවිය තවදුරටත් රැවටීම සඳහා අපට භාවිතා කළ හැකි වෙනත් විකල්ප හෝ පරාමිතීන් ඇත, නිදසුනක් ලෙස, අපි ගූගල් වෙතින් වෙබ් අඩවියට ඇතුළු වන බව දක්වන්න, මෙන්න මම සියල්ල සමඟ අවසන් රේඛාවෙන් ඉවත් වෙමි:

wget --header = "පිළිගන්න: පෙළ / html" --user-agent = "මොසිල්ලා / 5.0 (X11; ලිනක්ස් amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

වෙබ් අඩවියේ ආරම්භයේ දී http: // www අඩංගු වීම අනිවාර්ය නොවේ, එය කෙලින්ම http: // විය හැකිය. ජ්යාමිතිය ඩැෂ්

මෙය කිරීම හරිද?

එය රඳා පවතී ... ඔබ සැමවිටම එය දෘෂ්ටි කෝණයෙන්, අඩවි පරිපාලකගෙන් පමණක් නොව පා er කයාගෙන් ද දැක ගත යුතුය.

එක් අතකින්, පරිපාලකයෙකු ලෙස, ඔවුන් මගේ වෙබ් අඩවියේ HTML පිටපතක් එලෙසම ගන්නවාට මම කැමති නැත, එය මෙහි සබැඳිව ඇත්තේ විනෝදය සඳහා නොවේ, සියලු දෙනාගේ විනෝදය සඳහා ... අපගේ ඉලක්කය වන්නේ ඔබට ඉගෙන ගත හැකි රසවත් අන්තර්ගතයන් ලබා ගැනීමයි.

නමුත්, අනෙක් අතට ... නිවසේ අන්තර්ජාල පහසුකම් නොමැති, අප මෙහි තබා ඇති සම්පූර්ණ නිබන්ධන අංශය ලබා ගැනීමට කැමති අය සිටිති ... මම ඔවුන්ගේ ස්ථානයේම සිටිමි (ඇත්ත වශයෙන්ම මම එසේය, මන්ද නිවසේ මට අන්තර්ජාලයක් නොමැත) සහ පරිගණකයේ සිටීම ප්‍රසන්න නොවේ, ගැටළුවක් හෝ යමක් කිරීමට කැමති වීම සහ ඔබට ජාල ජාලයට ප්‍රවේශය නොමැති නිසා එය කිරීමට නොහැකි වීම.

එය හරිද වැරදිද යන්න එක් එක් පරිපාලකයාගේ ය, සෑම කෙනෙකුගේම යථාර්ථය ... මට වඩාත්ම සැලකිලිමත් වන්නේ සේවාදායකයේ ඇති wget හේතු වන සම්පත් පරිභෝජනයයි, නමුත් හොඳ හැඹිලි පද්ධතියක් සමඟ එය ප්‍රමාණවත් විය යුතුය සේවාදායකයා දුක් විඳින්නේ නැත.

අන්තර්ජාල

නිගමනය

මම දැන් ඔබෙන් ඉල්ලා සිටින්නේ ලිනක්ස් වෙතින් බාගත කිරීම ආරම්භ නොකරන ලෙසයි, හාහා! උදාහරණයක් ලෙස, මගේ පෙම්වතිය මගෙන් ඉල්ලා සිටියේ ජ්යාමිතික ඩෑෂ් වංචා (ජ්යාමිතික ඩෑෂ් වංචා වැනි දෙයක්) බාගත කරන්න, මම මුළු වෙබ් අඩවියම බාගත නොකර අපේක්ෂිත පිටුව විවෘත කර PDF හෝ HTML හෝ ඒ හා සමාන දෙයක් සුරකිමි. මම ඔබට නිර්දේශ කරන්නේ එයයි.

ඔබට සුරැකීමට අවශ්‍ය ඩෙස්ඩෙලිනක්ස් නිබන්ධනයක් තිබේ නම්, එය HTML හෝ PDF වැනි ඔබේ පිටු සලකුණු වල සුරකින්න ... නමුත්, නිබන්ධන එකක් හෝ දෙකක් සඳහා සේවාදායකයේ අධික තදබදය සහ පරිභෝජනය උත්පාදනය කිරීම අවශ්‍ය නොවේ

හොඳයි, කිසිවක් නැත, එය ප්‍රයෝජනවත් යැයි මම විශ්වාස කරමි ... සුබ පැතුම්


ලිපියේ අන්තර්ගතය අපගේ මූලධර්මවලට අනුකූල වේ කතුවැකි ආචාර ධර්ම. දෝෂයක් වාර්තා කිරීමට ක්ලික් කරන්න මෙන්න.

අදහස් 23 ක්, ඔබේ අදහස් තබන්න

ඔබේ අදහස තබන්න

ඔබේ ඊ-මේල් ලිපිනය පළ කරනු නොලැබේ. අවශ්ය ක්ෂේත්ර දක්වා ඇති ලකුණ *

*

*

  1. දත්ත සඳහා වගකිව යුතු: මිගෙල් ඇන්ජල් ගැටන්
  2. දත්තවල අරමුණ: SPAM පාලනය කිරීම, අදහස් කළමනාකරණය.
  3. නීත්‍යානුකූලභාවය: ඔබේ කැමැත්ත
  4. දත්ත සන්නිවේදනය: නෛතික බැඳීමකින් හැර දත්ත තෙවන පාර්ශවයකට සන්නිවේදනය නොකෙරේ.
  5. දත්ත ගබඩා කිරීම: ඔක්සෙන්ටස් නෙට්වර්ක්ස් (EU) විසින් සත්කාරකත්වය දක්වන දත්ත සමුදාය
  6. අයිතිවාසිකම්: ඕනෑම වේලාවක ඔබට ඔබේ තොරතුරු සීමා කිරීමට, නැවත ලබා ගැනීමට සහ මකා දැමීමට හැකිය.

  1.   eliotime 3000 ප්රකාශ කළේය

    සිත්ගන්නා ඉඟිය. ඔයාට ඒක කරන්න පුළුවන් කියලා මම දැනගෙන හිටියේ නැහැ.

  2.   එම්මානුවෙල් ප්රකාශ කළේය

    එය පැහැදිලිවම මට දෙවරක් සිදුවී ඇති අතර එය නිසැකවම එයට හේතුවයි. කෙසේ වෙතත්, වේගවත් හේතූන් මත (ගෙදර එදිරිව විශ්ව විද්‍යාලය) මට අවශ්‍ය වූයේ ඒ ආකාරයෙන් අන්තර්ගතයට ප්‍රවේශ වීමටය. 😛
    උපදෙස් වලට ස්තූතියි. සුභ පැතුම්.

  3.   ගෙරාර්ඩෝ ප්රකාශ කළේය

    අන්තර්ජාලය නොමැති අපගේ අයට එය විශිෂ්ටයි. නිසැකවම හොඳ නිබන්ධන.

  4.   ක්විනෝටෝ ප්රකාශ කළේය

    ඉතා රසවත් ලිපියක්.
    ප්‍රශ්නය: https අඩවි සඳහා එය කළ හැක්කේ කෙසේද?
    පරිශීලක නාමය සහ මුරපදය මගින් සත්‍යාපනය කිරීම අවශ්‍ය වන්නේ කොතැනද සහ වෙබ් අඩවියේ විශාල කොටසක් ජාවා භාෂාවෙන් ලියා ඇත.
    සුබ පැතුම් සහ ස්තූතියි

  5.   ගෙලිබාසියම් ප්රකාශ කළේය

    සහ බාගැනීම් සුරැකෙන්නේ කොහෙන්ද?

    1.    ගෙලිබාසියම් ප්රකාශ කළේය

      මම මටම පිළිතුරු දෙමි: පුද්ගලික ෆෝල්ඩරයේ. නමුත් දැන් ප්‍රශ්නය වන්නේ ... අන්තර්ගතය බාගත කරන්නේ කොහෙන්දැයි ඔහුට කෙසේ හෝ පැවසිය හැකිද?

      ස්තූතියි

      1.    දානියෙල් ප්රකාශ කළේය

        මම හිතන්නේ ඔබ මුලින්ම ඔබට එය සුරැකීමට අවශ්‍ය ෆෝල්ඩරයට පිවිස පසුව wget ධාවනය කරන්න

  6.   කිතුනුවෙකි ප්රකාශ කළේය

    විමසුම ... දත්ත සමුදායක් "ක්ලෝන" කිරීමට මේ වගේ දෙයක් ඇත

  7.   xphnx ප්රකාශ කළේය

    මට කුතුහලයක් තිබේ, එම සබැඳි ක්ෂුද්‍ර නිකේතන වෙබ් අඩවි වලට තැබීම සඳහා ඔබට මුදල් ලැබේද?

  8.   රූපර්ටෝ ප්රකාශ කළේය

    භාග්‍යවතුන් වහන්සේ ... මගේ pig රු දවස්වල මම කාමුක දර්ශන බාගත කළේ xD

  9.   ඇලූනාඩෝ ප්රකාශ කළේය

    හොඳ ඉඟියක්. ස්තූතියි

  10.   NULL ප්රකාශ කළේය

    ඉතා හොඳයි, සීමාවන් ඉක්මවා යාමේ කොටස මම කැමතියි.

  11.   ෆ්රාන්ස් ප්රකාශ කළේය

    එම මැණිකට ස්තූතියි:
    wget –header = »පිළිගන්න: පෙළ / html» –user-agent = »මොසිල්ලා / 5.0 (X11; ලිනක්ස් i686; rv: 31) ගෙකෝ / 20100101 ෆයර්ෆොක්ස් / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = ඕෆ්

    wget –header = »පිළිගන්න: පෙළ / html» –user-agent = »මොසිල්ලා / 5.0 (X11; ලිනක්ස් i686; rv: 31) ගෙකෝ / 20100101 ෆයර්ෆොක්ස් / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = ඕෆ්

    wget –header = »පිළිගන්න: පෙළ / html» –user-agent = »මොසිල්ලා / 5.0 (X11; ලිනක්ස් i686; rv: 31) ගෙකෝ / 20100101 ෆයර්ෆොක්ස් / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = ඕෆ්

  12.   පැලෝමරේස් ප්රකාශ කළේය

    හරිම රසවත්.

  13.   ඔස්කාර් මේසා ප්රකාශ කළේය

    wget යනු අතිශය ප්‍රබල මෙවලම් වලින් එකක් වන අතර, කුඩා පර්යන්ත ක්‍රමලේඛනයකින් ඔබට ඔබේම ගූගල් විලාසිතාවේ රොබෝවක් සාදාගත හැකි අතර පිටු වල අන්තර්ගතය බාගත කිරීම ආරම්භ කර එය ඔබේම දත්ත ගබඩාවේ ගබඩා කර පසුව ඔබට අවශ්‍ය ඕනෑම දෙයක් එම දත්ත සමඟ කළ හැකිය.

  14.   කාලෝස් ජී ප්රකාශ කළේය

    මම මෙම මෙවලම ඉතා සිත්ගන්නාසුළුය, මම කිසි විටෙකත් එහි පරාමිතීන් කෙරෙහි අවධානය යොමු කර නොතිබුණි, ඔබ ඇතුළු වීමට ප්‍රවේශ විය යුතු «X» පිටුවකින් අන්තර්ගතය බාගත කළ හැකිදැයි දැන ගැනීමට මම කැමතියි, එය මෙම වෙබ් අඩවියේ කොතැනක හෝ තිබේ නම් « X any කිසියම් වීඩියෝවක් තිබේද, එය «X» අඩවියට වඩා වෙනස් සීඩීඑන් එකකට අයත් වුවද මම එය බාගත කර ගත හැකිද?

    මෙය කළ හැකි නම්, වෙබ් අඩවියක් එවැනි මෙවලමකින් ආරක්ෂා වන්නේ කෙසේද?

    ස්තූතියි!

  15.   එරික් සනාඩි ප්රකාශ කළේය

    සුභ රාත්රියක්:

    උපදේශනයක් සඳහා මම ඔබට ලියමි. මෙම ලිපියේ අවසාන විධානය සමඟ මම බාගත කළේ 300MB තොරතුරු .. ලිපිගොනු .swf, .js, .html, පිටුවෙන් http://www.netacad.com/es වෙනිසියුලාවේ මාරකේ හි මා කළ කුඩා පා course මාලාවක සිට මගේ පරිශීලකයා සමඟ.

    මගේ ප්‍රශ්නය නම්… ෆ්ලෑෂ් සජීවිකරණ දැක ගත හැකිද?

    මම "ගෝලීය වින්‍යාසය" ඇතුළු කරන අතර එය කිසිවක් නොපෙන්වන විකල්පයන් මට වින්‍යාස කිරීමට ඉඩ නොදේ.

    ඕනෑම ප්‍රතිචාරයක් මම අගය කරමි.

    කල්තියා ස්තූතියි!

    1.    ADX ප්රකාශ කළේය

      මා සතුව එකම විස්තරයක් ඇත .swf අඩක් බාගත කර ඇත, ඔබ එය මඟ හැරිය හැකි නම්, මට තොරතුරු බෙදා ගන්න. මා අවසන් වරට කළේ සියලු නෙට්කාඩ් සම්බන්ධතා ලබා ගැනීම සඳහා මකුළුවෙකු භාවිතා කිරීමයි .නමුත් .swf බාගත කිරීම අවසන් නොකරයි.

  16.   alexander.hernandez ප්රකාශ කළේය

    ඉතා හොඳයි !!! ස්තූතියි.

  17.   ඇනා ප්රකාශ කළේය

    හෙලෝ, ඔබේ ටූටෝවට ස්තූතියි. මුරපදයක් සමඟ මට ආරාධනා කරන ලද බ්ලොග් අඩවියක් බාගත කිරීමට මම උත්සාහ කරමි, එවිට මට එය සම්බන්ධතාවයකින් තොරව නිවසේ සිට කියවිය හැකිය. මම මෙම වැඩසටහන භාවිතා කරන අතර, පැහැදිලිවම, මට බ්ලොග් අඩවියේ මුරපදය (වර්ඩ්ප්‍රෙස්) ඇත, නමුත් ඉදිරියට යන්නේ කෙසේදැයි මම නොදනිමි. ඔබට මට පෙන්විය හැකිද?
    කල්තියා ස්තූතියි සහ සුභ පැතුම්!

  18.   ෆ්රෑන් ප්රකාශ කළේය

    මොනතරම් හොඳ පෝස්ට් එකක්ද !!!

  19.   සන්තියාගෝ ප්රකාශ කළේය

    එය මට බොහෝ සේවය කර ඇත

  20.   ෆ්රෑන් ප්රකාශ කළේය

    මම කාවැද්දූ විමියෝ වීඩියෝ සහිත වෙබ් අඩවියකට පිවිසී ඇති අතර ඒවා බාගත කර ගැනීමට ක්‍රමයක් නොමැත .. එය පෙනෙන්නේ විමියෝ ඒවා ආරක්ෂා කර ඇති බවයි. අදහස් තිබේද ??