Com o terminal: Baixe um site completo com Wget

Nada melhor que Wikipedia para explicar em que consiste esta ferramenta:

GNU Wget é uma ferramenta de software livre que permite o download de conteúdo de servidores web de forma simples. Seu nome deriva de World Wide Web (w), e de "get" (em inglês get), que significa: get from the WWW.

Atualmente ele suporta downloads usando os protocolos HTTP, HTTPS e FTP.

Entre os recursos mais destacados que oferece wget existe a possibilidade de download fácil de espelhos complexos recursivamente, conversão de links para exibir conteúdo HTML localmente, suporte para proxies ...

É verdade que existem outras aplicações que nos ajudam a realizar este tipo de trabalho, como httrack ou mesmo extensões para Firefox como Scrapbook, mas nada como a simplicidade de um terminal 😀

Fazendo a magia

Eu estava curioso sobre o filme: A Rede Social, como o personagem de mark_zuckerberg use a frase: «Um pouco de magia wget«, Quando estava prestes a baixar as fotos para o Facemash 😀 e é verdade, wget permite que você faça mágica com os parâmetros apropriados.

Vejamos alguns exemplos, vamos começar com o uso simples da ferramenta.

Para descer uma página:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Para baixar todo o site recursivamente, incluindo imagens e outros tipos de dados:

$ wget -r https://blog.desdelinux.net/

E aí vem a magia. Como bem explicado no artigo de Humanos, muitos sites verificam a identidade do navegador para aplicar várias restrições. Com wget podemos contornar isso da seguinte maneira:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Ou também podemos fazer uma pausa entre cada página, caso contrário o dono do site pode perceber que estamos baixando o site completamente com wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


34 comentários, deixe o seu

Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.

  1.   Pandev92 dito

    Existe algo para baixar apenas as imagens xd?

    1.    Coragem dito
      1.    Pandev92 dito

        lol oo xd

    2.    KZKG ^ Gaara dito

      homem wget 😉

      1.    Pandev92 dito

        A vida é muito curta para ler o homem.

        1.    KZKG ^ Gaara dito

          A vida é muito curta para encher o cérebro de informações, mas ainda assim é válido tentar 🙂

          1.    Pandev92 dito

            Informação vale metade, prefiro enchê-la com mulheres, jogos e dinheiro se possível XD.

          2.    Coragem dito

            Você está sempre pensando em mulheres. De agora em diante, você ouvirá Dadee Yankee, Don Omar e Wisin Y Yandel como KZKG ^ Gaara faz.

            Dedique-se melhor ao dinheiro, que é o mais importante nesta vida

            1.    KZKG ^ Gaara dito

              Tem coisas que valem muito mais que dinheiro ... por exemplo, estar na história, fazer a diferença, ser lembrado pelo quanto você conseguiu contribuir para o mundo; e não por quanto dinheiro você tinha quando morreu 😉

              Tente não se tornar um homem de sucesso, mas um homem de coragem, Albert Einsein.


          3.    Coragem dito

            E pode um mendigo que mora debaixo de uma ponte fazer isso sem ter um centavo?

            Pois não

          4.    Coragem dito

            *Ter

          5.    Pandev92 dito

            Coragem, tive a minha era reggaeton e já não, isso foi há anos, só ouço música japonesa e clássica, e com o dinheiro… estamos a trabalhar nisso :)

          6.    Pandev92 dito

            Não quero ser lembrado, gara, quando eu tiver morrido terei morrido e ferrado os outros, pois não poderei nem saber o que pensam de mim. O que vale a pena ser lembrado mas você pode se orgulhar xD.

    3.    hypersayan_x dito

      Para baixar um tipo específico de arquivo, você pode usar filtros:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      E uma dica, se você vai clonar uma página muito grande, é recomendável que você faça através de um proxy como o tor, pois senão existem certas páginas que atingiram um determinado número de requisições consecutivas, bloqueando seu IP por várias horas ou dias .
      A outra vez que aconteceu comigo quando eu queria clonar um wiki.

    4.    mdir dito

      Uma extensão, que uso no Firefox, baixa apenas imagens; é chamado de "Salvar imagens 0.94"

  2.   Marrom dito

    eh uma duvida hehe cadê os arquivos que eu baixei salvos? Eles vão querer me matar, certo? kkkkk

    1.    KZKG ^ Gaara dito

      Os arquivos são baixados para a pasta onde você está localizado no terminal ao executar o wget get

  3.   Auros Zx dito

    Ahh, eu não imaginava que wget pudesse ter um uso tão interessante ... Agora, quanto ao uso que a Courage menciona ... Sem palavras 😉

  4.   Carlos-Xfce dito

    Alguém sabe se existe um plug-in WordPress que impede o Wget de baixar o seu blog?

  5.   Darzee dito

    Bem, é ótimo para mim !! Obrigado

  6.   Piolavski dito

    Muito bom, vamos tentar ver como, obrigado pela contribuição.

  7.   Lyairmg dito

    Embora eu me considere um iniciante, isso é fácil para mim agora vou tentar misturá-lo com outras coisas e ver o que dá….

  8.   oswaldo dito

    Espero que você possa me ajudar porque é segunda-feira, 3 de dezembro de 2012

    O projeto a ser desenvolvido é o seguinte:

    Realocação de um site ajustando as referências href.
    1.-Considerando um site da Web, baixe o site completo para um diretório local usando o comando wget. E usando um roteiro de sua autoria, realize as seguintes operações:

    1.1.-Criar um diretório independente para cada tipo de conteúdo: imagens gif, imagens jpeg, etc, vídeos avi, vídeos mpg, etc, áudio mp3, áudio wav, etc., conteúdo web (HTML, javascript, etc).

    1.2.-Uma vez que cada um destes conteúdos tenha sido realocado, proceda ao ajuste das referências às localizações locais de cada recurso no site.

    1.3.-Ative um servidor da Web e configure o diretório raiz onde o backup do site da Web está localizado como o diretório raiz do servidor da Web local.

    1.4.-Nota: o comando wget só pode ser usado com as seguintes opções:
    –Recursiva
    –Domains
    –Página-requisitos
    Se por algum motivo mais comandos forem necessários, use os necessários.

    1.    KZKG ^ Gaara dito

      Para baixar aqui acho que você tem a solução no post, agora ... para mover arquivos e substituir os caminhos, tive que fazer algo assim há um tempo atrás no meu trabalho, deixo para vocês o script que usei: http://paste.desdelinux.net/4670

      Você o modifica levando em consideração o tipo de arquivo e o caminho, ou seja, como os .HTMLs do seu site são compostos e isso.

      Esta não é a solução 100% porque você deve fazer alguns arranjos ou mudanças, mas eu garanto que é 70 ou 80% de todo o trabalho 😉

      1.    oswaldo dito

        Obrigado KZKG ^ Gaara tem sido uma grande ajuda para mim

  9.   dívida dito

    Sempre usei o httrack. Álbum de recortes para o firefox Vou tentar, mas adoro o wget. Obrigado!

  10.   Daniel PZ dito

    Cara, o comando não funcionou para mim ... este funcionou bem para mim:

    wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

    1.    Daniel dito

      Muito obrigado! Usei com os parâmetros propostos por Daniel PZ e não tive problemas 🙂

  11.   Ruben Almaguer dito

    Obrigado garoto, eu fiz isso com o WGet no meu cachorrinho Linux mas não sabia como fazer no terminal. Uma saudação

  12.   teimoso dito

    onde você guarda as páginas?

    1.    Picado dito

      Onde você tem o terminal aberto. Em primeiro lugar, na pasta raiz do usuário, a menos que você indique outro caminho.

  13.   fernando dito

    Baixe também os links? Portanto, se houver um link para um pdf ou outro documento, você também faz o download?

  14.   rio dito

    O que posso fazer para baixar meu blog completo? Tentei e o que não consigo ver parece estar em códigos ou bloqueado, apesar de demorar muitas horas para baixar, mas apenas a página inicial pode ser lida, que recomendo baixar meu blog, obrigado raul.

  15.   Leão dito

    olá, uma dúvida é possível substituir os links dentro do html, para depois poder navegar pela página baixada como se fosse a original.

    O que acontece é que eu baixei a página e quando abri dos arquivos baixados não peguei o .css ou .js e os links da página me levam para a página na Internet.