wgetとは何ですか?
何よりも良い Wikipedia このツールの構成を説明するには:
GNU Wget は、簡単な方法でWebサーバーからコンテンツをダウンロードできる無料のソフトウェアツールです。 その名前はWorldWide Web(w)に由来し、「get」(英語ではget)に由来します。つまり、WWWから取得します。
現在、HTTP、HTTPS、およびFTPプロトコルを使用したダウンロードをサポートしています。
それが提供する最も優れた機能の中で wgetの 複雑なミラーを簡単に再帰的にダウンロードしたり、リンクを変換してHTMLコンテンツをローカルに表示したり、プロキシをサポートしたりする可能性があります...
De wgetの 私たちはすでにここで十分に話し合いました DesdeLinux。 実際には ya wgetを使用して完全なWebサイトをダウンロードする方法を見てきましたが、問題は、今日の管理者がWebサイト全体をそのようにダウンロードすることを常に許可しているわけではなく、本当に好きなものではないことです...そして明らかに私は理解しています。 サイトはインターネット上にあり、相談することができます。読者は関心のあるコンテンツにアクセスし、サイト管理者は訪問などの経済的利益を(広告を通じて)得ます。 読者が自分のコンピューターにサイトをダウンロードした場合、過去の投稿を参照するためにオンラインに接続する必要はありません。
wgetを使用してサイトをダウンロードするのは、次のように簡単です。
wget -r -k http://www.sitio.com
- -r :これは、Webサイト全体がダウンロードされることを示します。
- -k :これは、ダウンロードしたサイトのリンクが、インターネットのないコンピューターで表示されるように変換されることを示しています。
さて、サイト管理者が私たちにとって困難になると、事態は複雑になります...
どのような制限が存在する可能性がありますか?
私たちが見つけた最も一般的なものは、サイトへのアクセスは、認識されたUserAgentがある場合にのみ許可されるということです。 言い換えると、サイトは、非常に多くのページをダウンロードしているUserAgentが「通常の」ページのXNUMXつではないことを認識し、アクセスを閉じます。
また、robots.txtファイルを介して、そのwget(たくさんのより類似したアプリのように)クライアントが望むようにダウンロードすることはできません、まあ...まあ、サイト管理者はそれを望んでいます、期間😀
これらの制限を回避する方法は?
最初のケースでは、wgetするUserAgentを確立します。これは、オプションを使用して実行できます。 -ユーザーエージェント、ここで私はあなたに方法を示します:
wget --user-agent = "Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
ここで、robots.txtを回避するには、そのファイルを除外します。つまり、wgetにサイトをダウンロードさせ、robots.txtの内容を気にしません。
wget --user-agent = "Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off
さて...サイトをさらに欺くために使用できる他のオプションやパラメータがあります。たとえば、Googleからサイトにアクセスすることを示します。ここでは、最後の行にすべてを残します。
wget --header = "Accept:text / html" --user-agent = "Mozilla / 5.0(X11; Linux amd64; rv:32.0b4)Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http:/ /www.google.com -r http://www.site.com -e robots = off -k
これをしても大丈夫ですか?
それは状況によって異なります...サイト管理者だけでなく、読者からも、常に両方の観点からそれを見る必要があります。
一方で、管理者として、私は彼らが私のサイトのHTMLコピーをそのように取っていることを望んでいません。それはここにオンラインであり、すべての人を楽しむためではありません...私たちの目標はあなたが学ぶことができる興味深いコンテンツを利用できるようにすることです。
しかし、その一方で...自宅にインターネットを持っていないユーザーがいて、ここに置いたチュートリアルセクション全体を持ちたいと思っています...私は彼らの代わりに自分自身を置きました(実は私はそうです、なぜなら家にはインターネットがないからです)そして、コンピュータ上にいること、問題を抱えていること、何かをしたいこと、そしてネットワークのネットワークにアクセスできないためにできないことは楽しいことではありません。
それが正しいか間違っているかは、各管理者、各自の現実に依存します...私が最も懸念するのは、wgetがサーバー上で引き起こすリソース消費ですが、優れたキャッシュシステムを使用すれば、サーバーは影響を受けません。
結論
今すぐダウンロードを開始しないでください。 DesdeLinux ははは!!たとえば、ガールフレンドが、Geometry Dash Cheats (Geometry Dash Cheats のようなもの) をダウンロードするように私に頼みました。Web サイト全体をダウンロードするのではなく、目的のページを開いて PDF または HTML などで保存します。これは次のとおりです。私があなたにお勧めしたいこと。
チュートリアルがあれば DesdeLinux 保存したいものをブックマークに保存し、HTML または PDF として保存します...ただし、1 つまたは 2 つのチュートリアルでは、サーバー上で過剰なトラフィックや消費を生成する必要はありません 😉
まあ何も、私はそれが役立つことを願っています...ご挨拶
興味深いヒント。 あなたがそれができるとは知りませんでした。
それは明らかに私に二度起こったことであり、それは確かにそれによるものでした。 しかし、私がそのようにコンテンツにアクセスしたかったのは、速度の理由(家庭と大学)のためでした。 😛
アドバイスをありがとう。 よろしく。
インターネットを持っていない私たちにとっては素晴らしいことです。 確かに良いチュートリアル。
非常に興味深い記事。
質問:httpsサイトでどのように行うことができますか?
ユーザー名とパスワードで認証する必要があり、サイトの大部分はjavaで書かれていますか?
ご挨拶と感謝
ダウンロードはどこに保存されますか?
私は自分自身に答えます:個人用フォルダに。 しかし今、問題は...コンテンツをダウンロードする場所をどうにかして示すことができますか?
graciass
最初に保存したいフォルダにアクセスしてから、wgetを実行すると思います
クエリ...そしてデータベースを「クローン」するためにこのようなものがあります
私は好奇心があります、あなたはマイクロニッチウェブへのそれらのリンクを配置するためのお金を受け取りますか?
祝福されたwget ...それは私が私の豚の時代にたくさんのポルノをダウンロードした方法ですxD
良いヒント。 ありがとう
とても良いです、私は制限を回避することについての部分が好きでした。
その宝石をありがとう:
wget –header =»承認:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31″ –referer = http://www.google.com- r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k-eロボット=オフ
wget –header =»承認:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31″ –referer = http://www.google.com- r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k-eロボット=オフ
wget –header =»承認:text / html»–user-agent =»Mozilla / 5.0(X11; Linux i686; rv:31)Gecko / 20100101 Firefox / 31″ –referer = http://www.google.com- r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k-eロボット=オフ
非常に興味深い。
wgetはそれらの非常に強力なツールのXNUMXつであり、小さなターミナルプログラミングで、独自のgoogleスタイルのロボットを作成してページのコンテンツのダウンロードを開始し、独自のデータベースに保存して、後でそのデータを使用してやりたいことを行うことができます。
このツールは非常に興味深いものだと思います。パラメータに注意を払ったことはありません。ログインする必要のある«X»ページからコンテンツをダウンロードできるかどうか、またどこかにあるかどうかを知りたいです。サイト«X»にビデオはありますか?«X»サイトとは異なるCDNに属していても、ダウンロードできますか?
これが可能である場合、サイトはそのようなツールからどのように保護しますか?
ご挨拶!
おやすみ:
私はあなたに相談のために手紙を書いています。 この記事の最後のコマンドで、約300MBの情報..ファイル.swf、.js、.htmlをページからダウンロードしました。 http://www.netacad.com/es ベネズエラのマラカイで行った小さなコースのユーザーと一緒に。
私の質問は…フラッシュアニメーションを見ることができるでしょうか?
「グローバル構成」と入力すると、何も表示されないオプションで構成できます。
ご回答ありがとうございます。
事前に感謝します!
私は同じ詳細を持っています、.swfは半分ダウンロードされます、あなたがそれをスキップすることができれば、私に情報を共有してください。 前回私がしたことは、スパイダーを使用してすべてのnetacadリンクを取得することでしたが、それでも.swfはダウンロードを完了しません。
とても良い !!! ありがとう。
こんにちは、あなたのtutoに感謝します。 招待されたブログをパスワード付きでダウンロードして、自宅からオフラインで読めるようにしています。 私はこのプログラムを使用しており、明らかにブログ(ワードプレス)のパスワードを持っていますが、進め方がわかりません。 見せてくれませんか。
よろしくお願いします!
なんて素晴らしい投稿!!!
素晴らしいそれは私にたくさん役立っています
vimeoビデオが埋め込まれたWebサイトにログインしましたが、ダウンロードする方法がありません..vimeoで保護されているようです。 何か案は??