Nada melhor que Wikipedia para explicar em que consiste esta ferramenta:
GNU Wget é uma ferramenta de software livre que permite o download de conteúdo de servidores web de forma simples. Seu nome deriva de World Wide Web (w), e de "get" (em inglês get), que significa: get from the WWW.
Atualmente ele suporta downloads usando os protocolos HTTP, HTTPS e FTP.
Entre os recursos mais destacados que oferece wget existe a possibilidade de download fácil de espelhos complexos recursivamente, conversão de links para exibir conteúdo HTML localmente, suporte para proxies ...
É verdade que existem outras aplicações que nos ajudam a realizar este tipo de trabalho, como httrack ou mesmo extensões para Firefox como Scrapbook, mas nada como a simplicidade de um terminal 😀
Fazendo a magia
Eu estava curioso sobre o filme: A Rede Social, como o personagem de mark_zuckerberg use a frase: «Um pouco de magia wget«, Quando estava prestes a baixar as fotos para o Facemash 😀 e é verdade, wget permite que você faça mágica com os parâmetros apropriados.
Vejamos alguns exemplos, vamos começar com o uso simples da ferramenta.
Para descer uma página:
$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget
Para baixar todo o site recursivamente, incluindo imagens e outros tipos de dados:
$ wget -r https://blog.desdelinux.net/
E aí vem a magia. Como bem explicado no artigo de Humanos, muitos sites verificam a identidade do navegador para aplicar várias restrições. Com wget podemos contornar isso da seguinte maneira:
wget -r -p -U Mozilla https://blog.desdelinux.net/
Ou também podemos fazer uma pausa entre cada página, caso contrário o dono do site pode perceber que estamos baixando o site completamente com wget.
wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/
Existe algo para baixar apenas as imagens xd?
http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio
Que acabei de ler sua mente hahahaha
lol oo xd
homem wget 😉
A vida é muito curta para ler o homem.
A vida é muito curta para encher o cérebro de informações, mas ainda assim é válido tentar 🙂
Informação vale metade, prefiro enchê-la com mulheres, jogos e dinheiro se possível XD.
Você está sempre pensando em mulheres. De agora em diante, você ouvirá Dadee Yankee, Don Omar e Wisin Y Yandel como KZKG ^ Gaara faz.
Dedique-se melhor ao dinheiro, que é o mais importante nesta vida
Tem coisas que valem muito mais que dinheiro ... por exemplo, estar na história, fazer a diferença, ser lembrado pelo quanto você conseguiu contribuir para o mundo; e não por quanto dinheiro você tinha quando morreu 😉
Tente não se tornar um homem de sucesso, mas um homem de coragem, Albert Einsein.
E pode um mendigo que mora debaixo de uma ponte fazer isso sem ter um centavo?
Pois não
*Ter
Coragem, tive a minha era reggaeton e já não, isso foi há anos, só ouço música japonesa e clássica, e com o dinheiro… estamos a trabalhar nisso :)
Não quero ser lembrado, gara, quando eu tiver morrido terei morrido e ferrado os outros, pois não poderei nem saber o que pensam de mim. O que vale a pena ser lembrado mas você pode se orgulhar xD.
Para baixar um tipo específico de arquivo, você pode usar filtros:
https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html
E uma dica, se você vai clonar uma página muito grande, é recomendável que você faça através de um proxy como o tor, pois senão existem certas páginas que atingiram um determinado número de requisições consecutivas, bloqueando seu IP por várias horas ou dias .
A outra vez que aconteceu comigo quando eu queria clonar um wiki.
Uma extensão, que uso no Firefox, baixa apenas imagens; é chamado de "Salvar imagens 0.94"
eh uma duvida hehe cadê os arquivos que eu baixei salvos? Eles vão querer me matar, certo? kkkkk
Os arquivos são baixados para a pasta onde você está localizado no terminal ao executar o wget get
Ahh, eu não imaginava que wget pudesse ter um uso tão interessante ... Agora, quanto ao uso que a Courage menciona ... Sem palavras 😉
Alguém sabe se existe um plug-in WordPress que impede o Wget de baixar o seu blog?
Bem, é ótimo para mim !! Obrigado
Muito bom, vamos tentar ver como, obrigado pela contribuição.
Embora eu me considere um iniciante, isso é fácil para mim agora vou tentar misturá-lo com outras coisas e ver o que dá….
Espero que você possa me ajudar porque é segunda-feira, 3 de dezembro de 2012
O projeto a ser desenvolvido é o seguinte:
Realocação de um site ajustando as referências href.
1.-Considerando um site da Web, baixe o site completo para um diretório local usando o comando wget. E usando um roteiro de sua autoria, realize as seguintes operações:
1.1.-Criar um diretório independente para cada tipo de conteúdo: imagens gif, imagens jpeg, etc, vídeos avi, vídeos mpg, etc, áudio mp3, áudio wav, etc., conteúdo web (HTML, javascript, etc).
1.2.-Uma vez que cada um destes conteúdos tenha sido realocado, proceda ao ajuste das referências às localizações locais de cada recurso no site.
1.3.-Ative um servidor da Web e configure o diretório raiz onde o backup do site da Web está localizado como o diretório raiz do servidor da Web local.
1.4.-Nota: o comando wget só pode ser usado com as seguintes opções:
–Recursiva
–Domains
–Página-requisitos
Se por algum motivo mais comandos forem necessários, use os necessários.
Para baixar aqui acho que você tem a solução no post, agora ... para mover arquivos e substituir os caminhos, tive que fazer algo assim há um tempo atrás no meu trabalho, deixo para vocês o script que usei: http://paste.desdelinux.net/4670
Você o modifica levando em consideração o tipo de arquivo e o caminho, ou seja, como os .HTMLs do seu site são compostos e isso.
Esta não é a solução 100% porque você deve fazer alguns arranjos ou mudanças, mas eu garanto que é 70 ou 80% de todo o trabalho 😉
Obrigado KZKG ^ Gaara tem sido uma grande ajuda para mim
Sempre usei o httrack. Álbum de recortes para o firefox Vou tentar, mas adoro o wget. Obrigado!
Cara, o comando não funcionou para mim ... este funcionou bem para mim:
wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com
Muito obrigado! Usei com os parâmetros propostos por Daniel PZ e não tive problemas 🙂
Obrigado garoto, eu fiz isso com o WGet no meu cachorrinho Linux mas não sabia como fazer no terminal. Uma saudação
onde você guarda as páginas?
Onde você tem o terminal aberto. Em primeiro lugar, na pasta raiz do usuário, a menos que você indique outro caminho.
Baixe também os links? Portanto, se houver um link para um pdf ou outro documento, você também faz o download?
O que posso fazer para baixar meu blog completo? Tentei e o que não consigo ver parece estar em códigos ou bloqueado, apesar de demorar muitas horas para baixar, mas apenas a página inicial pode ser lida, que recomendo baixar meu blog, obrigado raul.
olá, uma dúvida é possível substituir os links dentro do html, para depois poder navegar pela página baixada como se fosse a original.
O que acontece é que eu baixei a página e quando abri dos arquivos baixados não peguei o .css ou .js e os links da página me levam para a página na Internet.