ดาวน์โหลดทั้งไซต์ด้วย wget แม้ว่าจะมีข้อ จำกัด ก็ตาม

wget คืออะไร?

ไม่มีอะไรดีไปกว่า วิกิพีเดีย เพื่ออธิบายว่าเครื่องมือนี้ประกอบด้วยอะไร:

GNU ได้รับ เป็นเครื่องมือซอฟต์แวร์ฟรีที่อนุญาตให้ดาวน์โหลดเนื้อหาจากเว็บเซิร์ฟเวอร์ด้วยวิธีง่ายๆ ชื่อนี้มาจาก World Wide Web (w) และจาก "get" (ในภาษาอังกฤษ get) ซึ่งหมายความว่า: get from the WWW

ปัจจุบันรองรับการดาวน์โหลดโดยใช้โปรโตคอล HTTP, HTTPS และ FTP

ในคุณสมบัติที่โดดเด่นที่สุดที่มีให้ wget มีความเป็นไปได้ในการดาวน์โหลดมิเรอร์ที่ซับซ้อนซ้ำ ๆ ได้อย่างง่ายดายการแปลงลิงก์เพื่อแสดงเนื้อหา HTML ในเครื่องรองรับพร็อกซี ...

De wget เราคุยกันมามากพอแล้วที่นี่ที่ DesdeLinux. ในความเป็นจริง ya เราได้เห็นวิธีดาวน์โหลดเว็บไซต์ที่สมบูรณ์ด้วย wget แล้วปัญหาคือในปัจจุบันผู้ดูแลระบบไม่อนุญาตให้ใครดาวน์โหลดเว็บไซต์ทั้งหมดของพวกเขาเสมอไปไม่ใช่สิ่งที่พวกเขาชอบจริงๆ ... และเห็นได้ชัดว่าฉันเข้าใจ ไซต์นี้อยู่บนอินเทอร์เน็ตเพื่อให้คำปรึกษาผู้อ่านเข้าถึงเนื้อหาที่น่าสนใจและผู้ดูแลระบบไซต์จะได้รับประโยชน์ในเชิงเศรษฐกิจ (โดยการโฆษณา) เช่นเดียวกับการเยี่ยมชม หากผู้อ่านดาวน์โหลดไซต์ไปยังคอมพิวเตอร์ของเขาเขาจะไม่ต้องออนไลน์เพื่อดูโพสต์ที่ผ่านมา

ในการดาวน์โหลดไซต์ด้วย wget นั้นทำได้ง่ายเพียง:

wget -r -k http://www.sitio.com

  • -r : นี่เป็นการระบุว่าจะดาวน์โหลดทั้งเว็บไซต์
  • -k : สิ่งนี้บ่งชี้ว่าลิงก์ของไซต์ที่ดาวน์โหลดมาจะถูกแปลงให้เห็นบนคอมพิวเตอร์ที่ไม่มีอินเทอร์เน็ต

ตอนนี้สิ่งต่าง ๆ เริ่มซับซ้อนเมื่อผู้ดูแลเว็บไซต์ทำให้เราลำบาก ...

อาจมีข้อ จำกัด อะไรบ้าง?

สิ่งที่เราพบบ่อยที่สุดคือการเข้าถึงไซต์จะได้รับอนุญาตก็ต่อเมื่อคุณมี UserAgent ที่เป็นที่รู้จัก กล่าวอีกนัยหนึ่งไซต์จะรับรู้ว่า UserAgent ที่ดาวน์โหลดหน้าเว็บจำนวนมากไม่ใช่หนึ่งในหน้า "ปกติ" ดังนั้นจะปิดการเข้าถึง

ผ่านไฟล์ robots.txt คุณสามารถระบุ wget (เช่นแอปที่คล้ายกันมากขึ้น) คุณจะไม่สามารถดาวน์โหลดได้ตามที่ลูกค้าต้องการดี ... ผู้ดูแลเว็บไซต์ต้องการช่วงเวลา😀

จะหลีกเลี่ยงข้อ จำกัด เหล่านี้ได้อย่างไร?

สำหรับกรณีแรกเราจะสร้าง UserAgent เพื่อ wget เราสามารถทำได้ด้วยตัวเลือก - ตัวแทนผู้ใช้ฉันจะแสดงให้คุณเห็นว่า:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

ตอนนี้หากต้องการใช้งาน robots.txt ให้แยกไฟล์นั่นคือปล่อยให้ wget ดาวน์โหลดไซต์และไม่สนใจว่า robots.txt พูดว่าอะไร:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

ตอนนี้ ... มีตัวเลือกหรือพารามิเตอร์อื่น ๆ ที่เราสามารถใช้เพื่อหลอกลวงไซต์ได้มากขึ้นเช่นระบุว่าเราเข้าสู่ไซต์จาก Google ที่นี่ฉันทิ้งบรรทัดสุดท้ายไว้กับทุกสิ่ง:

wget --header = "ยอมรับ: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

ไม่ได้บังคับว่าเว็บไซต์จะมี http: // www ที่จุดเริ่มต้นสามารถเป็น http: // โดยตรงได้เช่นเดียวกับตัวอย่างนี้ รีบเรขาคณิต

สามารถทำได้หรือไม่?

ขึ้นอยู่กับว่า ... คุณจะต้องเห็นมันจากทั้งสองมุมมองจากผู้ดูแลไซต์และจากผู้อ่านด้วย

ในแง่หนึ่งในฐานะผู้ดูแลระบบฉันไม่ต้องการให้พวกเขาใช้สำเนา HTML ของไซต์ของฉันแบบนั้นที่นี่ไม่ใช่เพื่อความบันเทิงเพื่อความบันเทิงของทุกคน ... เป้าหมายของเราคือการมีเนื้อหาที่น่าสนใจ สำหรับคุณที่คุณสามารถเรียนรู้

แต่ในทางกลับกัน ... มีผู้ใช้ที่ไม่มีอินเทอร์เน็ตที่บ้านซึ่งต้องการมีส่วนบทช่วยสอนทั้งหมดที่เราได้นำเสนอไว้ที่นี่ ...อันที่จริงฉันเป็นเพราะที่บ้านฉันไม่มีอินเทอร์เน็ต) และไม่เป็นที่พอใจที่จะใช้คอมพิวเตอร์มีปัญหาหรือต้องการทำบางสิ่งบางอย่างและไม่สามารถทำได้เนื่องจากคุณไม่สามารถเข้าถึงเครือข่ายของเครือข่ายได้

ไม่ว่าจะถูกหรือผิดขึ้นอยู่กับผู้ดูแลระบบแต่ละคนความเป็นจริงของแต่ละคน ... สิ่งที่ฉันกังวลมากที่สุดคือการใช้ทรัพยากรที่ก่อให้เกิดบนเซิร์ฟเวอร์ แต่ด้วยระบบแคชที่ดีก็ควรจะเพียงพอสำหรับ เซิร์ฟเวอร์ไม่ประสบ

อินเทอร์เน็ต

สรุปผลการวิจัย

ฉันขอให้คุณอย่าเริ่มดาวน์โหลดตอนนี้ DesdeLinux ฮ่า ฮ่า ฮ่า!! ตัวอย่างเช่น แฟนของฉันขอให้ฉันดาวน์โหลด Geometry Dash Cheats (บางอย่างเช่น Geometry Dash Cheats) ฉันจะไม่ดาวน์โหลดทั้งเว็บไซต์ แต่ฉันจะเปิดหน้าที่ต้องการแล้วบันทึกเป็น PDF หรือ HTML หรืออะไรสักอย่าง นั่นคือ นี่คือ สิ่งที่ฉันอยากจะแนะนำให้คุณ

หากคุณมีบทเรียนใด ๆ DesdeLinux ที่คุณต้องการบันทึก ให้บันทึกลงในบุ๊กมาร์กของคุณ เป็น HTML หรือ PDF... แต่สำหรับบทช่วยสอนหนึ่งหรือสองบท ไม่จำเป็นต้องสร้างการรับส่งข้อมูลและการใช้งานมากเกินไปบนเซิร์ฟเวอร์ 😉

หวังว่าคงเป็นประโยชน์ ...


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา

  1.   Eliotime3000 dijo

    เคล็ดลับที่น่าสนใจ ฉันไม่รู้ว่าคุณจะทำอย่างนั้นได้

  2.   Emmanuel dijo

    มันเป็นสิ่งที่เกิดขึ้นกับฉันสองครั้งอย่างชัดเจนและแน่นอนว่าเป็นเพราะมัน แม้ว่าจะเป็นเพราะเหตุผลด้านความเร็ว (บ้านกับมหาวิทยาลัย) ที่ฉันต้องการเข้าถึงเนื้อหาด้วยวิธีนั้น 😛
    ขอบคุณสำหรับคำแนะนำ. ความนับถือ.

  3.   Gerardo dijo

    เหมาะสำหรับพวกเราที่ไม่มีอินเทอร์เน็ต บทเรียนที่ดีอย่างแน่นอน

  4.   ควินอตโต้ dijo

    บทความที่น่าสนใจมาก
    คำถาม: ทำอย่างไรสำหรับไซต์ https
    จำเป็นต้องตรวจสอบความถูกต้องโดยใช้ชื่อผู้ใช้และรหัสผ่านที่ไหนและเว็บไซต์ส่วนใหญ่เขียนด้วยภาษาจาวา
    ทักทายและขอบคุณ

  5.   เจลลิโพแทสเซียม dijo

    และบันทึกการดาวน์โหลดไว้ที่ไหน

    1.    เจลลิโพแทสเซียม dijo

      ฉันตอบตัวเอง: ในโฟลเดอร์ส่วนตัว แต่ตอนนี้คำถามคือ ... คุณช่วยบอกเขาได้ไหมว่าจะดาวน์โหลดเนื้อหาได้ที่ไหน?

      ขอบคุณ

      1.    แดเนียล dijo

        ฉันเดาว่าคุณเข้าถึงโฟลเดอร์ที่คุณต้องการบันทึกก่อนแล้วจึงเรียกใช้ wget

  6.   Cristian dijo

    แบบสอบถาม ... และจะมีบางอย่างเช่นนี้เพื่อ "โคลน" ฐานข้อมูล

  7.   xphnx dijo

    ฉันอยากรู้อยากเห็นคุณได้รับเงินจากการวางลิงค์เหล่านั้นไปยังเว็บไซต์ขนาดเล็กหรือไม่?

  8.   รูเปอร์โต dijo

    มีความสุขมาก ... นั่นคือวิธีที่ฉันดาวน์โหลดสื่อลามกจำนวนมากในวันหมูของฉัน xD

  9.   อลูนาโด dijo

    เคล็ดลับที่ดี ขอบคุณ

  10.   NULL dijo

    ดีมากฉันชอบส่วนที่เกี่ยวกับการหลีกเลี่ยงข้อ จำกัด

  11.   ฟรานซ์ dijo

    ขอบคุณสำหรับอัญมณีนั้น:
    wget –header = »ยอมรับ: text / html » –user-agent = » Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31″ –referer = http: //www.google.com - ร https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = ปิด

    wget –header = »ยอมรับ: text / html » –user-agent = » Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31″ –referer = http: //www.google.com - ร https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = ปิด

    wget –header = »ยอมรับ: text / html » –user-agent = » Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31″ –referer = http: //www.google.com - ร https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = ปิด

  12.   Palomares dijo

    ที่น่าสนใจมาก

  13.   ออสการ์เมซ่า dijo

    wget เป็นหนึ่งในเครื่องมือทรงพลังพิเศษเหล่านั้นด้วยการเขียนโปรแกรมเทอร์มินัลเพียงเล็กน้อยคุณสามารถสร้างหุ่นยนต์สไตล์ Google ของคุณเองเพื่อเริ่มดาวน์โหลดเนื้อหาของหน้าเว็บและเก็บไว้ในฐานข้อมูลของคุณเองและทำสิ่งที่คุณต้องการในภายหลังด้วยข้อมูลนั้น

  14.   คาร์ลอสจี dijo

    ฉันพบว่าเครื่องมือนี้น่าสนใจมากฉันไม่เคยใส่ใจกับพารามิเตอร์ของมันเลยฉันต้องการทราบว่าเป็นไปได้หรือไม่ที่จะดาวน์โหลดเนื้อหาจากหน้า« X »ซึ่งคุณต้องลงชื่อเข้าใช้เพื่อเข้าสู่และหากอยู่ที่ไหนสักแห่ง ในไซต์« X »มีวิดีโอหรือไม่ฉันจะดาวน์โหลดได้หรือไม่แม้ว่าจะเป็นของ CDN อื่นที่ไม่ใช่ไซต์« X »

    หากเป็นไปได้เว็บไซต์จะป้องกันเครื่องมือดังกล่าวได้อย่างไร

    ทักทาย!

  15.   Erick zanardi dijo

    ราตรีสวัสดิ์:

    ฉันเขียนจดหมายถึงคุณเพื่อขอคำปรึกษา ฉันดาวน์โหลดด้วยคำสั่งสุดท้ายของบทความนี้ข้อมูลเกือบ 300MB .. ไฟล์. swf, .js, .html จากหน้า http://www.netacad.com/es กับผู้ใช้ของฉันจากหลักสูตรเล็ก ๆ ที่ฉันทำใน Maracay ประเทศเวเนซุเอลา

    คำถามของฉันคือ…จะเห็นภาพเคลื่อนไหวแฟลชได้หรือไม่?

    ฉันป้อน "Global Configuration" และตัวเลือกที่แสดงว่าไม่อนุญาตให้ฉันกำหนดค่า

    ฉันขอขอบคุณทุกคำตอบ

    ขอบคุณล่วงหน้า!

    1.    ADX dijo

      ฉันมีรายละเอียดเหมือนกันมีการดาวน์โหลด. swf ครึ่งหนึ่งหากคุณสามารถข้ามได้โปรดแบ่งปันข้อมูลให้ฉัน สิ่งที่ฉันพยายามครั้งสุดท้ายคือใช้สไปเดอร์เพื่อรับลิงก์ netacad ทั้งหมด แต่ยังคงดาวน์โหลด. swf ไม่เสร็จเท่าที่ควร

  16.   alexander.hernandez dijo

    ดีมาก !!! ขอบคุณ.

  17.   อานา dijo

    สวัสดีขอบคุณสำหรับ tuto ของคุณ ฉันกำลังพยายามดาวน์โหลดบล็อกที่ฉันได้รับเชิญพร้อมรหัสผ่านเพื่อที่ฉันจะได้อ่านจากที่บ้านโดยไม่ต้องเชื่อมต่อ ฉันใช้โปรแกรมนี้และเห็นได้ชัดว่าฉันมีรหัสผ่านของบล็อก (wordpress) แต่ฉันไม่รู้ว่าจะดำเนินการอย่างไร แสดงให้ฉันดูได้ไหม?
    ขอบคุณล่วงหน้าและขอแสดงความนับถือ!

  18.   ฟราน dijo

    ช่างเป็นกระทู้เด็ด !!!

  19.   ซานติอาโก dijo

    ยอดเยี่ยมมันให้บริการฉันมาก

  20.   ฟราน dijo

    ฉันลงชื่อเข้าใช้เว็บไซต์ที่มีวิดีโอ vimeo ฝังอยู่และไม่มีวิธีใดที่จะดาวน์โหลดได้ .. ดูเหมือนว่า vimeo ได้รับการป้องกัน ความคิดใด ๆ ??