터미널 사용 : Wget으로 전체 웹 사이트 다운로드

더 나은 것은 없습니다 위키 백과 이 도구가 무엇으로 구성되어 있는지 설명합니다.

GNU Wget 간단한 방법으로 웹 서버에서 콘텐츠를 다운로드 할 수있는 무료 소프트웨어 도구입니다. 그 이름은 World Wide Web (w)과 "get"(영어로 get)에서 따 왔습니다. 즉, WWW에서 가져 오기를 의미합니다.

현재 HTTP, HTTPS 및 FTP 프로토콜을 사용한 다운로드를 지원합니다.

제공하는 가장 뛰어난 기능 중 wget 복잡한 미러를 재귀 적으로 쉽게 다운로드하고, HTML 콘텐츠를 로컬로 표시하기위한 링크 변환, 프록시 지원 ...

이러한 유형의 작업을 수행하는 데 도움이되는 다른 응용 프로그램이 있다는 것은 사실입니다. httrack 또는 심지어 확장 파이어 폭스 으로 스크랩북,하지만 터미널의 단순함과 같은 것은 없습니다 😀

마술하기

나는 영화에 대해 궁금했다. 소셜 네트워크, 캐릭터로 마크 주커 버그 다음 문구를 사용하십시오. «조금 마법의 wget«, Facemash에 대한 사진을 다운로드하려고 할 때 😀 사실입니다. wget 적절한 매개 변수로 마술을 할 수 있습니다.

몇 가지 예를 살펴보고 간단한 도구 사용부터 시작하겠습니다.

페이지 아래로 이동하려면 :

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

이미지 및 기타 유형의 데이터를 포함하여 전체 사이트를 재귀 적으로 다운로드하려면 :

$ wget -r https://blog.desdelinux.net/

그리고 여기에 마법이 있습니다. 기사에서 잘 설명했습니다. 인간, 많은 사이트에서 브라우저의 신원을 확인하여 다양한 제한을 적용합니다. 와 웩겟 다음과 같은 방법으로이를 우회 할 수 있습니다.

wget  -r -p -U Mozilla https://blog.desdelinux.net/

또는 각 페이지 사이에서 일시 중지 할 수도 있습니다. 그렇지 않으면 사이트 소유자가 웩겟.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.

  1.   판데브92

    xd 이미지 만 다운로드 할 수있는 것이 있습니까?

    1.    용기

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      방금 당신의 마음을 읽었다 고 하 하하하

      1.    판데브92

        lol oo xd

    2.    KZKG ^ 가아라

      남자 wget 😉

      1.    판데브92

        사람을 읽기에는 인생이 너무 짧습니다.

        1.    KZKG ^ 가아라

          인생은 정보로 뇌를 채우기에는 너무 짧지 만 시도하는 것은 여전히 ​​유효합니다 🙂

          1.    판데브92

            정보는 절반의 가치가 있습니다. 가능한 한 여성, 게임 및 돈으로 채우는 것을 선호합니다 XD.

          2.    용기

            당신은 항상 여자에 대해 생각하고 있습니다. 이제부터는 KZKG ^ Gaara처럼 Dadee Yankee, Don Omar 및 Wisin Y Yandel을 듣게 될 것입니다.

            이생에서 가장 중요한 것은 돈에 더 잘 헌신하십시오

            1.    KZKG ^ 가아라

              돈보다 훨씬 더 가치있는 것들이 있습니다. 예를 들어, 역사 속에 있고, 변화를 일으키고, 당신이 세상에 얼마나 기여할 수 있었는지 기억되는 것; 그리고 당신이 죽었을 때 얼마나 많은 돈을 가지고 있었는지가 아닙니다 😉

              성공한 사람이 아니라 용기있는 사람, Albert Einsein이 되십시오.


          3.    용기

            다리 밑에 사는 거지가 한 푼도없이 그렇게 할 수 있을까요?

            음 ... 아니

          4.    용기

            * 가지고

          5.    판데브92

            용기, 나는 나의 레게 톤 시대를 가졌고 더 이상 수년 전이었고, 나는 단지 일본 음악과 클래식 음악을 듣고 돈으로 ... 우리는 그것을 작업하고 있습니다 :).

          6.    판데브92

            나는 기억되는 것을 신경 쓰지 않는다, 가라, 내가 죽을 때 나는 그들이 나를 어떻게 생각하는지조차 알 수 없기 때문에 나는 죽고 다른 사람들을 망칠 것이다. 기억할 가치가 있지만 xD를 자랑스럽게 생각할 수 있습니다.

    3.    hypersayan_x

      특정 유형의 파일을 다운로드하려면 필터를 사용할 수 있습니다.

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      팁, 매우 큰 페이지를 복제하려는 경우 tor과 같은 프록시를 통해 수행하는 것이 좋습니다. 그렇지 않으면 특정 수의 연속 요청에 도달하여 몇 시간 또는 며칠 동안 IP를 차단하는 특정 페이지가 있기 때문입니다. .
      위키를 복제하고 싶을 때 저에게 일어난 일입니다.

    4.    엠디르

      Firefox에서 사용하는 확장 프로그램은 이미지 만 다운로드합니다. "이미지 저장 0.94"라고합니다.

  2.   파르도

    다운로드 한 파일이 어디에 저장되어 있습니까? 날 죽이고 싶어 할 거죠? LOL

    1.    KZKG ^ 가아라

      파일은 wget을 실행할 때 터미널에있는 폴더로 다운로드됩니다.

  3.   오로스Zx

    아, wget이 그렇게 흥미로운 용도로 사용될 수있을 거라고는 상상도 못했어요 ... 자, 용기가 언급 한 용도에 대해 ...

  4.   카를로스-Xfce

    Wget이 블로그를 다운로드하지 못하게하는 WordPress 플러그인이 있는지 아는 사람이 있습니까?

  5.   Darzee

    글쎄, 나에게 좋다 !! 감사합니다

  6.   Piolavski

    매우 좋습니다. 기여해 주셔서 감사합니다.

  7.   거짓말

    나는 나 자신을 초보자라고 생각하지만 이것은 나에게 쉽습니다. 이제 나는 그것을 다른 것들과 혼합하고 그것이 무엇을 제공하는지 보려고 노력할 것입니다.

  8.   오스왈드

    3 년 2012 월 XNUMX 일 월요일이기 때문에 도와 주셨으면합니다.

    개발할 프로젝트는 다음과 같습니다.

    href 참조를 조정하여 웹 사이트 재배치.
    1.- 웹 사이트를 고려하여 wget 명령을 사용하여 전체 사이트를 로컬 디렉터리에 다운로드합니다. 그리고 저자의 스크립트를 사용하여 다음 작업을 수행하십시오.

    1.1.-gif 이미지, jpeg 이미지 등, avi 비디오, mpg 비디오 등, mp3 오디오, wav 오디오 등, 웹 콘텐츠 (HTML, javascript 등) 등 각 유형의 콘텐츠에 대해 독립적 인 디렉토리를 만듭니다.

    1.2.- 이러한 각 콘텐츠가 재배치되면 사이트에있는 각 리소스의 로컬 위치에 대한 참조를 조정합니다.

    1.3.- 웹 서버를 활성화하고 웹 사이트 백업이있는 루트 디렉터리를 로컬 웹 서버의 루트 디렉터리로 구성합니다.

    1.4.- 참고 : wget 명령은 다음 옵션과 함께 만 사용할 수 있습니다.
    – 재귀
    – 도메인
    – 페이지 필수 조건
    어떤 이유로 더 많은 명령이 필요한 경우 필요한 명령을 사용하십시오.

    1.    KZKG ^ 가아라

      여기에서 다운로드하려면 게시물에 해결책이 있다고 생각합니다. 이제 ... 파일을 이동하고 경로를 바꾸려면 얼마 전에 작업에서 이와 같은 작업을 수행해야했습니다. 내가 사용한 스크립트를 남겨 둡니다. http://paste.desdelinux.net/4670

      파일 유형과 경로, 즉 사이트의 .HTML이 구성되는 방식과 그 경로를 고려하여 수정합니다.

      이것은 당신이 약간의 준비 나 변경을해야하기 때문에 100 % 해결책은 아니지만, 그것이 모든 작업의 ​​70 또는 80 %임을 보장합니다 😉

      1.    오스왈드

        감사합니다 KZKG ^ Gaara는 저에게 큰 도움이되었습니다

  9.   부채

    나는 항상 httrack을 사용했습니다. 파이어 폭스 용 스크랩북을 사용해 보 겠지만 wget을 좋아합니다. 감사합니다!

  10.   다니엘 PZ

    이 명령은 저에게 효과가 없었습니다 ...이 명령은 저에게 효과적이었습니다.

    wget –random-wait -r -p -e 로봇 = 끄기 -U mozilla http://www.example.com

    1.    다니엘

      감사합니다! Daniel PZ가 제안한 매개 변수와 함께 사용했는데 문제가 없었습니다 🙂

  11.   루벤 알마 구어

    고마워요, Linux 강아지에서 WGet으로 그렇게했지만 터미널에서하는 방법을 몰랐습니다. 인사

  12.   피스톤도

    페이지를 어디에 보관합니까?

    1.    도끼

      터미널이 열려있는 곳. 처음에는 다른 경로를 지정하지 않는 한 사용자 루트 폴더에서.

  13.   페르난도

    링크도 다운로드 하시겠습니까? 그렇다면 pdf 또는 기타 문서에 대한 링크가 있으면 다운로드합니까?

  14.  

    전체 블로그를 다운로드하기 위해 무엇을 할 수 있는지 시도했지만 다운로드하는 데 많은 시간이 걸렸음에도 불구하고 코드에 표시되거나 차단 된 것처럼 보이지만 초기 페이지 만 읽을 수 있으므로 다운로드하는 것이 좋습니다. 내 블로그, 감사합니다 raul.

  15.   레오

    안녕하세요, html 내의 링크를 대체하여 나중에 다운로드 한 페이지를 원본 인 것처럼 탐색 할 수 있을지 의심됩니다.

    무슨 일이 일어 났는지 내가 페이지를 다운로드하고 다운로드 한 파일에서 열었을 때 .css 또는 .js를 가져 오지 않았고 페이지의 링크가 인터넷 페이지로 연결되는 것입니다.