制限があっても wget で Web サイト全体をダウンロード

制限がある場合でも、wgetを使用してサイト全体をダウンロードする

wgetとは何ですか？

何よりも良い Wikipedia このツールの構成を説明するには：

GNU Wget は、簡単な方法でWebサーバーからコンテンツをダウンロードできる無料のソフトウェアツールです。その名前はWorldWide Web（w）に由来し、「get」（英語ではget）に由来します。つまり、WWWから取得します。

現在、HTTP、HTTPS、およびFTPプロトコルを使用したダウンロードをサポートしています。

それが提供する最も優れた機能の中で wgetの 複雑なミラーを簡単に再帰的にダウンロードしたり、リンクを変換してHTMLコンテンツをローカルに表示したり、プロキシをサポートしたりする可能性があります...

De wgetの 私たちはすでにここで十分に話し合いました DesdeLinux。実際には ya wgetを使用して完全なWebサイトをダウンロードする方法を見てきましたが、問題は、今日の管理者がWebサイト全体をそのようにダウンロードすることを常に許可しているわけではなく、本当に好きなものではないことです...そして明らかに私は理解しています。サイトはインターネット上にあり、相談することができます。読者は関心のあるコンテンツにアクセスし、サイト管理者は訪問などの経済的利益を（広告を通じて）得ます。読者が自分のコンピューターにサイトをダウンロードした場合、過去の投稿を参照するためにオンラインに接続する必要はありません。

wgetを使用してサイトをダウンロードするのは、次のように簡単です。

wget -r -k http://www.sitio.com

-r ：これは、Webサイト全体がダウンロードされることを示します。
-k ：これは、ダウンロードしたサイトのリンクが、インターネットのないコンピューターで表示されるように変換されることを示しています。

さて、サイト管理者が私たちにとって困難になると、事態は複雑になります...

どのような制限が存在する可能性がありますか？

私たちが見つけた最も一般的なものは、サイトへのアクセスは、認識されたUserAgentがある場合にのみ許可されるということです。言い換えると、サイトは、非常に多くのページをダウンロードしているUserAgentが「通常の」ページのXNUMXつではないことを認識し、アクセスを閉じます。

また、robots.txtファイルを介して、そのwget（たくさんのより類似したアプリのように）クライアントが望むようにダウンロードすることはできません、まあ...まあ、サイト管理者はそれを望んでいます、期間😀

これらの制限を回避する方法は？

最初のケースでは、wgetするUserAgentを確立します。これは、オプションを使用して実行できます。 -ユーザーエージェント、ここで私はあなたに方法を示します：

wget --user-agent = "Mozilla / 5.0（X11; Linux amd64; rv：32.0b4）Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

ここで、robots.txtを回避するには、そのファイルを除外します。つまり、wgetにサイトをダウンロードさせ、robots.txtの内容を気にしません。

wget --user-agent = "Mozilla / 5.0（X11; Linux amd64; rv：32.0b4）Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

さて...サイトをさらに欺くために使用できる他のオプションやパラメータがあります。たとえば、Googleからサイトにアクセスすることを示します。ここでは、最後の行にすべてを残します。

wget --header = "Accept：text / html" --user-agent = "Mozilla / 5.0（X11; Linux amd64; rv：32.0b4）Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http：/ /www.google.com -r http://www.site.com -e robots = off -k

サイトにhttp：// wwwが最初に含まれていることは必須ではなく、直接http：//にすることもできます。ジオメトリダッシュ

これをしても大丈夫ですか？

それは状況によって異なります...サイト管理者だけでなく、読者からも、常に両方の観点からそれを見る必要があります。

一方で、管理者として、私は彼らが私のサイトのHTMLコピーをそのように取っていることを望んでいません。それはここにオンラインであり、すべての人を楽しむためではありません...私たちの目標はあなたが学ぶことができる興味深いコンテンツを利用できるようにすることです。

しかし、その一方で...自宅にインターネットを持っていないユーザーがいて、ここに置いたチュートリアルセクション全体を持ちたいと思っています...私は彼らの代わりに自分自身を置きました（実は私はそうです、なぜなら家にはインターネットがないからです）そして、コンピュータ上にいること、問題を抱えていること、何かをしたいこと、そしてネットワークのネットワークにアクセスできないためにできないことは楽しいことではありません。

それが正しいか間違っているかは、各管理者、各自の現実に依存します...私が最も懸念するのは、wgetがサーバー上で引き起こすリソース消費ですが、優れたキャッシュシステムを使用すれば、サーバーは影響を受けません。

結論

今すぐダウンロードを開始しないでください。 DesdeLinux ははは！！たとえば、ガールフレンドが、Geometry Dash Cheats (Geometry Dash Cheats のようなもの) をダウンロードするように私に頼みました。Web サイト全体をダウンロードするのではなく、目的のページを開いて PDF または HTML などで保存します。これは次のとおりです。私があなたにお勧めしたいこと。

チュートリアルがあれば DesdeLinux 保存したいものをブックマークに保存し、HTML または PDF として保存します...ただし、1 つまたは 2 つのチュートリアルでは、サーバー上で過剰なトラフィックや消費を生成する必要はありません 😉

まあ何も、私はそれが役立つことを願っています...ご挨拶

コメントを残す返信をキャンセル

エリオタイム3000 同
HACE 10年

興味深いヒント。あなたがそれができるとは知りませんでした。

eliotime3000に返信する
エマニュエル同
HACE 10年

それは明らかに私に二度起こったことであり、それは確かにそれによるものでした。しかし、私がそのようにコンテンツにアクセスしたかったのは、速度の理由（家庭と大学）のためでした。 😛
アドバイスをありがとう。よろしく。

エマニュエルに返信
ヘラルド同
HACE 10年

インターネットを持っていない私たちにとっては素晴らしいことです。確かに良いチュートリアル。

Gerardoに返信する
キノット同
HACE 10年

非常に興味深い記事。
質問：httpsサイトでどのように行うことができますか？
ユーザー名とパスワードで認証する必要があり、サイトの大部分はjavaで書かれていますか？
ご挨拶と感謝

Quinottoに返信する
ゲリバシウム同
HACE 10年

ダウンロードはどこに保存されますか？

Gelibasioに応答する
1. ゲリバシウム同
  HACE 10年
  
  私は自分自身に答えます：個人用フォルダに。しかし今、問題は...コンテンツをダウンロードする場所をどうにかして示すことができますか？
  
  graciass
  
  Gelibasioに応答する
  1. Daniel Mölk 同
    HACE 10年
    
    最初に保存したいフォルダにアクセスしてから、wgetを実行すると思います
    
    ダニエルに返信
クリスティアン同
HACE 10年

クエリ...そしてデータベースを「クローン」するためにこのようなものがあります

クリスチャンに返信
xphnx 同
HACE 10年

私は好奇心があります、あなたはマイクロニッチウェブへのそれらのリンクを配置するためのお金を受け取りますか？

xphnxに返信する
ルパート同
HACE 10年

祝福されたwget ...それは私が私の豚の時代にたくさんのポルノをダウンロードした方法ですxD

ルパートに返信
アルナド同
HACE 10年

良いヒント。ありがとう

alunadoに返信する
NULL 同
HACE 10年

とても良いです、私は制限を回避することについての部分が好きでした。

NULLに返信する
フランツ同
HACE 10年

その宝石をありがとう：
wget –header =»承認：text / html»–user-agent =»Mozilla / 5.0（X11; Linux i686; rv：31）Gecko / 20100101 Firefox / 31″ –referer = http：//www.google.com- r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k-eロボット=オフ

wget –header =»承認：text / html»–user-agent =»Mozilla / 5.0（X11; Linux i686; rv：31）Gecko / 20100101 Firefox / 31″ –referer = http：//www.google.com- r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k-eロボット=オフ

wget –header =»承認：text / html»–user-agent =»Mozilla / 5.0（X11; Linux i686; rv：31）Gecko / 20100101 Firefox / 31″ –referer = http：//www.google.com- r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k-eロボット=オフ

フランツに返信
パロマレス同
HACE 10年

非常に興味深い。

パロマレスに返信する
オスカーメザ同
HACE 10年

wgetはそれらの非常に強力なツールのXNUMXつであり、小さなターミナルプログラミングで、独自のgoogleスタイルのロボットを作成してページのコンテンツのダウンロードを開始し、独自のデータベースに保存して、後でそのデータを使用してやりたいことを行うことができます。

オスカーメザに返信
カルロスG 同
HACE 9年

このツールは非常に興味深いものだと思います。パラメータに注意を払ったことはありません。ログインする必要のある«X»ページからコンテンツをダウンロードできるかどうか、またどこかにあるかどうかを知りたいです。サイト«X»にビデオはありますか？«X»サイトとは異なるCDNに属していても、ダウンロードできますか？

これが可能である場合、サイトはそのようなツールからどのように保護しますか？

ご挨拶！

カルロスGに返信
エリック・ザナルディ同
HACE 9年

おやすみ：

私はあなたに相談のために手紙を書いています。この記事の最後のコマンドで、約300MBの情報..ファイル.swf、.js、.htmlをページからダウンロードしました。 http://www.netacad.com/es ベネズエラのマラカイで行った小さなコースのユーザーと一緒に。

私の質問は…フラッシュアニメーションを見ることができるでしょうか？

「グローバル構成」と入力すると、何も表示されないオプションで構成できます。

ご回答ありがとうございます。

事前に感謝します！

ErickZanardiに返信する
1. ADX 同
  HACE 9年
  
  私は同じ詳細を持っています、.swfは半分ダウンロードされます、あなたがそれをスキップすることができれば、私に情報を共有してください。前回私がしたことは、スパイダーを使用してすべてのnetacadリンクを取得することでしたが、それでも.swfはダウンロードを完了しません。
  
  ADXに返信する
アレハンドロ・ヘルナンデス同
HACE 8年

とても良い！！！ありがとう。

alejandro.hernandezに返信する
アナ同
HACE 8年

こんにちは、あなたのtutoに感謝します。招待されたブログをパスワード付きでダウンロードして、自宅からオフラインで読めるようにしています。私はこのプログラムを使用しており、明らかにブログ（ワードプレス）のパスワードを持っていますが、進め方がわかりません。見せてくれませんか。
よろしくお願いします！

アナに返信
フラン同
HACE 7年

なんて素晴らしい投稿!!!

フランに返信
サンティアゴ同
HACE 7年

素晴らしいそれは私にたくさん役立っています

サンティアゴに返信
フラン同
HACE 7年

vimeoビデオが埋め込まれたWebサイトにログインしましたが、ダウンロードする方法がありません..vimeoで保護されているようです。何か案は？？

フランに返信

wgetとは何ですか？

どのような制限が存在する可能性がありますか？

これらの制限を回避する方法は？

これをしても大丈夫ですか？

結論

コメントを残す 返信をキャンセル

コメントを残す返信をキャンセル