제한이 있어도 wget으로 전체 사이트 다운로드

wget은 무엇입니까?

더 나은 것은 없습니다 위키 백과 이 도구가 무엇으로 구성되어 있는지 설명합니다.

GNU Wget 간단한 방법으로 웹 서버에서 콘텐츠를 다운로드 할 수있는 무료 소프트웨어 도구입니다. 그 이름은 World Wide Web (w)과 "get"(영어로 get)에서 따 왔습니다. 즉, WWW에서 가져 오기를 의미합니다.

현재 HTTP, HTTPS 및 FTP 프로토콜을 사용한 다운로드를 지원합니다.

제공하는 가장 뛰어난 기능 중 wget 복잡한 미러를 재귀 적으로 쉽게 다운로드하고, HTML 콘텐츠를 로컬로 표시하기위한 링크 변환, 프록시 지원 ...

De wget 우리는 이미 여기서 충분히 이야기했습니다. DesdeLinux. 사실로 ya 우리는 wget을 사용하여 완전한 웹 사이트를 다운로드하는 방법을 보았습니다. 문제는 오늘날 관리자가 항상 그와 같이 전체 웹 사이트를 다운로드하는 것을 허용하지 않는다는 것입니다. 그것은 그들이 정말로 좋아하는 것이 아닙니다 ... 그리고 분명히 이해합니다. 이 사이트는 상담을 받기 위해 인터넷에 있고, 독자는 관심있는 콘텐츠에 액세스하고, 사이트 관리자는 방문 등과 같은 재정적으로 (광고를 통해) 이익을 얻습니다. 독자가 자신의 컴퓨터에 사이트를 다운로드하면 과거 게시물을 참조하기 위해 온라인에 접속할 필요가 없습니다.

wget으로 사이트를 다운로드하려면 다음과 같이 간단합니다.

wget -r -k http://www.sitio.com

  • -r : 전체 웹 사이트가 다운로드됨을 나타냅니다.
  • -k : 다운로드 한 사이트의 링크가 인터넷이없는 컴퓨터에서도 볼 수 있도록 변환됨을 나타냅니다.

이제 사이트 관리자가 우리를 어렵게 만들면 상황이 복잡해집니다.

어떤 제한이있을 수 있습니까?

우리가 찾을 수있는 가장 일반적인 것은 사이트에 대한 액세스가 인식 된 UserAgent가있는 경우에만 허용된다는 것입니다. 즉, 사이트는 너무 많은 페이지를 다운로드하는 UserAgent가 "정상적인"페이지가 아니라는 것을 인식하여 액세스를 닫습니다.

또한 robots.txt 파일을 통해 wget (더 비슷한 앱처럼) 클라이언트가 원하는대로 다운로드 할 수 없습니다. 글쎄요, 사이트 관리자가 원합니다. 기간 😀

이러한 제한을 우회하는 방법은 무엇입니까?

첫 번째 경우에는 wget에 대한 UserAgent를 설정합니다. 옵션을 사용하여이를 수행 할 수 있습니다. -사용자 에이전트, 여기에서는 방법을 보여줍니다.

wget --user-agent = "Mozilla / 5.0 (X11, Linux amd64, rv : 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4"-r http://www.site.com -k

이제 robots.txt를 살펴 보려면 해당 파일을 제외하면됩니다. 즉, wget이 사이트를 다운로드하도록하고 robots.txt의 내용은 신경 쓰지 마십시오.

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv : 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4"-r http://www.site.com -k -e 로봇 = 끄기

이제 ... 우리가 사이트를 더 속이는 데 사용할 수있는 다른 옵션이나 매개 변수가 있습니다. 예를 들어, Google에서 사이트에 들어갔다는 것을 나타내면 여기에 모든 내용으로 마지막 줄을 남깁니다.

wget --header = "수락 : text / html"--user-agent = "Mozilla / 5.0 (X11, Linux amd64, rv : 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4"--referer = http : / /www.google.com -r http://www.site.com -e 로봇 = 끄기 -k

사이트의 시작 부분에 http : // www가 포함되어 있어야하는 것은 아닙니다. 예를 들어 다음과 같이 바로 http : // 하나 일 수 있습니다. 지오메트리 대시

이 작업을 수행해도됩니까?

그것은 상황에 따라 다릅니다 ... 항상 사이트 관리자뿐만 아니라 독자의 관점에서 볼 수 있어야합니다.

한편으로 관리자로서 나는 그들이 내 사이트의 HTML 사본을 가져가는 것을 원하지 않습니다. 즐거움을위한 것이 아니라 온라인에 있습니다. 우리의 목표는 여러분이 배울 수있는 흥미로운 콘텐츠를 제공하는 것입니다.

하지만 다른 한편으로는 집에 인터넷이없는 사용자가 있고 여기에 넣은 튜토리얼 섹션 전체를 갖고 싶어하는 사용자가 있습니다.사실 저는 집에 인터넷이 없기 때문에) 네트워크 네트워크에 액세스 할 수 없기 때문에 컴퓨터에 문제가 있거나 무언가를하고 싶은데 할 수없는 것은 즐겁지 않습니다.

옳고 그름은 각 관리자에게 달려 있으며, 각 사람의 현실은 ... 가장 걱정되는 것은 wget이 서버에서 발생하는 자원 소비 일 것이지만, 좋은 캐시 시스템을 사용하면 충분할 것입니다. 서버는 고통받지 않습니다.

인터넷

결론

지금 다운로드를 시작하지 말 것을 요청합니다. DesdeLinux 하하하!! 예를 들어, 내 여자친구가 나에게 Geometry Dash 치트(Geometry Dash 치트와 같은 것)를 다운로드하라고 요청했는데, 전체 웹사이트를 다운로드하지는 않고 원하는 페이지를 열고 PDF나 HTML 등으로 저장하면 됩니다. 내가 당신에게 추천하고 싶은 것.

튜토리얼이 있다면 DesdeLinux 저장하고 싶은 내용을 HTML이나 PDF로 북마크에 저장하세요... 하지만 한두 개의 튜토리얼의 경우 서버에서 과도한 트래픽과 소비를 생성할 필요는 없습니다 😉

글쎄요, 유용했으면 좋겠어요 ... 인사말


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.

  1.   엘리오타임3000

    흥미로운 팁. 그렇게 할 수 있을지 몰랐습니다.

  2.   엠마누엘

    그것은 분명히 나에게 두 번 일어난 일이며, 그 때문이었습니다. 하지만 속도상의 이유로 (가정 대 대학) 콘텐츠에 액세스하고 싶었습니다. 😛
    조언 해주셔서 감사합니다. 문안 인사.

  3.   제라르도

    인터넷이없는 사람들에게 좋습니다. 확실히 좋은 튜토리얼.

  4.   퀴 노토

    매우 흥미로운 기사입니다.
    질문 : https 사이트에서 어떻게 할 수 있습니까?
    사용자 이름과 암호를 사용하여 인증해야하며 사이트의 대부분이 Java로 작성되어 있습니까?
    인사와 감사

  5.   젤리 바시 움

    그리고 다운로드는 어디에 저장됩니까?

    1.    젤리 바시 움

      나는 개인 폴더에서 스스로 대답합니다. 하지만 이제 문제는 ... 어디서 콘텐츠를 다운로드 할 수 있는지 알려 주실 수 있습니까?

      graciass

      1.    다니엘

        먼저 저장하려는 폴더에 액세스 한 다음 wget을 실행합니다.

  6.   크리스티안

    쿼리 ... 데이터베이스를 "복제"하는 것과 같은 것이 있습니다.

  7.   xphnx

    궁금한 점이 있습니다. 이러한 링크를 마이크로 틈새 웹 사이트에 배치하면 돈을 받습니까?

  8.   루 퍼토

    축복받은 wget ... 그것이 내가 돼지 시대 xD에서 많은 포르노를 다운로드 한 방법입니다.

  9.   Alunado

    좋은 팁. 감사

  10.   NULL

    아주 좋아, 제한을 우회하는 부분이 마음에 들었습니다.

  11.   프란츠

    그 보석에 감사드립니다 :
    wget –header =»수락 : text / html»–user-agent =»Mozilla / 5.0 (X11; Linux i686; rv : 31) Gecko / 20100101 Firefox / 31 ″ –referer = http : //www.google.com- 아르 자형 https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e 로봇 = 꺼짐

    wget –header =»수락 : text / html»–user-agent =»Mozilla / 5.0 (X11; Linux i686; rv : 31) Gecko / 20100101 Firefox / 31 ″ –referer = http : //www.google.com- 아르 자형 https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e 로봇 = 꺼짐

    wget –header =»수락 : text / html»–user-agent =»Mozilla / 5.0 (X11; Linux i686; rv : 31) Gecko / 20100101 Firefox / 31 ″ –referer = http : //www.google.com- 아르 자형 https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e 로봇 = 꺼짐

  12.   팔로 마레스

    아주 흥미 롭군요.

  13.   오스카 메자

    wget은 이러한 초강력 도구 중 하나이며, 약간의 터미널 프로그래밍으로 페이지의 콘텐츠를 다운로드하고 자신의 데이터베이스에 저장하고 나중에 해당 데이터로 원하는 모든 작업을 수행 할 수있는 Google 스타일 로봇을 만들 수 있습니다.

  14.   카를로스 G

    이 도구는 매우 흥미 롭습니다. 매개 변수에주의를 기울인 적이 없습니다. 로그인해야하는«X»페이지에서 콘텐츠를 다운로드 할 수 있는지, 그리고이 도구가이 사이트에 있는지 확인하고 싶습니다.« X "비디오가 있습니까?"X "사이트와 다른 CDN에 속해 있어도 다운로드 할 수 있습니까?

    이것이 가능하다면 사이트는 그러한 도구로부터 어떻게 보호합니까?

    안녕하십니까!

  15.   에릭 자 나르디

    안녕히 주무세요:

    상담을 위해 편지를 쓰고 있습니다. 이 기사의 마지막 명령으로 거의 300MB의 정보 .. 파일 .swf, .js, .html을 페이지에서 다운로드했습니다. http://www.netacad.com/es 베네수엘라 마라 카이에서했던 작은 과정의 사용자와 함께.

    제 질문은… 플래시 애니메이션을 볼 수 있을까요?

    "글로벌 구성"을 입력하고 아무것도 표시하지 않는 옵션으로 구성 할 수 있습니다.

    어떤 응답이든 감사합니다.

    미리 감사드립니다!

    1.    ADX

      나는 똑같은 세부 사항을 가지고 있습니다. .swf는 중간에 다운로드됩니다. 건너 뛰면 나와 정보를 공유하십시오. 내가 마지막으로 시도한 것은 모든 netacad 링크를 얻기 위해 스파이더를 사용하는 것이었지만 .swf가 다운로드를 완료하지 못합니다.

  16.   알레한드로.헤르난데스

    아주 좋아요 !!! 감사.

  17.   어록

    안녕하세요, tuto에 감사드립니다. 인터넷에 연결하지 않고 집에서 읽을 수 있도록 초대받은 블로그를 비밀번호로 다운로드하려고합니다. 나는이 프로그램을 사용하고 있고, 당연히 블로그 (wordpress)의 비밀번호를 가지고 있지만 어떻게 진행해야할지 모르겠다. 보여 주 시겠어요?
    미리 감사드립니다.

  18.   프랜

    멋진 게시물 !!!

  19.   산티아고

    훌륭합니다.

  20.   프랜

    vimeo 비디오가 포함 된 웹 사이트에 로그인했는데 다운로드 할 방법이 없습니다 .. vimeo가 보호하는 것처럼 보입니다. 어떤 아이디어 ??