ด้วยเทอร์มินัล: ดาวน์โหลดเว็บไซต์ที่สมบูรณ์ด้วย Wget

ไม่มีอะไรดีไปกว่า วิกิพีเดีย เพื่ออธิบายว่าเครื่องมือนี้ประกอบด้วยอะไร:

GNU ได้รับ เป็นเครื่องมือซอฟต์แวร์ฟรีที่อนุญาตให้ดาวน์โหลดเนื้อหาจากเว็บเซิร์ฟเวอร์ด้วยวิธีง่ายๆ ชื่อนี้มาจาก World Wide Web (w) และจาก "get" (ในภาษาอังกฤษ get) ซึ่งหมายความว่า: get from the WWW

ปัจจุบันรองรับการดาวน์โหลดโดยใช้โปรโตคอล HTTP, HTTPS และ FTP

ในคุณสมบัติที่โดดเด่นที่สุดที่มีให้ wget มีความเป็นไปได้ในการดาวน์โหลดมิเรอร์ที่ซับซ้อนซ้ำ ๆ ได้อย่างง่ายดายการแปลงลิงก์เพื่อแสดงเนื้อหา HTML ในเครื่องรองรับพร็อกซี ...

เป็นความจริงที่ว่ามีแอปพลิเคชั่นอื่น ๆ ที่ช่วยให้เราทำงานประเภทนี้ได้เช่น HTTrack หรือแม้แต่ส่วนขยายสำหรับ Firefox ในขณะที่ Scrapbookแต่ไม่มีอะไรที่เหมือนกับความเรียบง่ายของเทอร์มินัล😀

การทำเวทมนตร์

ฉันอยากรู้เกี่ยวกับภาพยนตร์เรื่องนี้: เครือข่ายทางสังคมเป็นลักษณะของ mark_zuckerberg ใช้วลี: «เวทมนต์เล็กน้อย«ตอนที่ฉันกำลังจะดาวน์โหลดรูปภาพของ Facemash 😀และมันเป็นเรื่องจริง wget ช่วยให้คุณสร้างเวทมนตร์ด้วยพารามิเตอร์ที่เหมาะสม

มาดูตัวอย่างสองสามตัวอย่างเริ่มต้นด้วยการใช้เครื่องมือง่ายๆ

ในการลงไปที่หน้า:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

ในการดาวน์โหลดทั้งไซต์แบบวนซ้ำรวมถึงรูปภาพและข้อมูลประเภทอื่น ๆ :

$ wget -r https://blog.desdelinux.net/

และนี่คือความมหัศจรรย์ ตามที่อธิบายเราในบทความของ มนุษย์ไซต์จำนวนมากยืนยันตัวตนของเบราว์เซอร์เพื่อใช้ข้อ จำกัด ต่างๆ ด้วย wget เราสามารถหลีกเลี่ยงสิ่งนี้ได้ด้วยวิธีต่อไปนี้:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

หรือเราสามารถหยุดชั่วคราวระหว่างแต่ละหน้ามิฉะนั้นเจ้าของไซต์อาจทราบว่าเรากำลังดาวน์โหลดไซต์โดยสมบูรณ์ด้วย wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา

  1.   pandev92 dijo

    มีบางอย่างให้ดาวน์โหลดเฉพาะภาพ xd?

    1.    ความกล้าหาญ dijo

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      ฉันแค่อ่านใจของคุณฮ่า ๆ ๆ ๆ

      1.    pandev92 dijo

        ฮ่า ๆ oo xd

    2.    KZKG ^ กาอาระ dijo

      ผู้ชาย wget ????

      1.    pandev92 dijo

        ชีวิตสั้นเกินไปที่จะอ่านแมน

        1.    KZKG ^ กาอาระ dijo

          ชีวิตสั้นเกินกว่าที่จะเติมเต็มสมองด้วยข้อมูล แต่ก็ยังคงใช้ได้🙂

          1.    pandev92 dijo

            ข้อมูลมีค่าครึ่งหนึ่งฉันชอบเติมด้วยผู้หญิงเกมและเงินถ้าเป็นไปได้ XD

          2.    ความกล้าหาญ dijo

            คุณมักจะคิดถึงผู้หญิง จากนี้ไปคุณจะได้ฟัง Dadee Yankee, Don Omar และ Wisin Y Yandel เหมือน KZKG ^ Gaara

            ทุ่มเทเงินตัวเองดีกว่าซึ่งเป็นสิ่งที่สำคัญที่สุดในชีวิตนี้

            1.    KZKG ^ กาอาระ dijo

              มีหลายสิ่งที่มีค่ามากกว่าเงิน ... ตัวอย่างเช่นการอยู่ในประวัติศาสตร์การสร้างความแตกต่างการได้รับการจดจำว่าคุณมีส่วนช่วยให้โลกได้มากเพียงใด และไม่ได้มีเงินเท่าไหร่เมื่อเสียชีวิต😉

              พยายามอย่ากลายเป็นคนที่ประสบความสำเร็จ แต่เป็นคนที่กล้าหาญ Albert Einsein


          3.    ความกล้าหาญ dijo

            และขอทานที่อาศัยอยู่ใต้สะพานสามารถทำได้โดยไม่ต้องมีเงินสักบาทหรือ?

            ดีไม่

          4.    ความกล้าหาญ dijo

            *เพื่อที่จะมี

          5.    pandev92 dijo

            ด้วยความกล้าหาญฉันมียุคเร็กเก้นของฉันแล้วและเมื่อหลายปีก่อนฉันฟังแค่เพลงญี่ปุ่นและดนตรีคลาสสิกและด้วยเงิน…เรากำลังดำเนินการอยู่ :)

          6.    pandev92 dijo

            ฉันไม่สนใจที่จะถูกจดจำการ่าเมื่อฉันตายฉันจะต้องตายและทำร้ายคนอื่นเพราะฉันจะไม่รู้ด้วยซ้ำว่าพวกเขาคิดยังไงกับฉัน สิ่งที่ควรค่าแก่การจดจำ แต่คุณสามารถภาคภูมิใจได้ xD

    3.    hypersayan_x dijo

      ในการดาวน์โหลดไฟล์บางประเภทคุณสามารถใช้ตัวกรอง:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      และเคล็ดลับหากคุณจะโคลนเพจที่มีขนาดใหญ่มากขอแนะนำให้คุณทำผ่านพร็อกซีเช่น tor เพราะมิฉะนั้นจะมีบางเพจที่มีคำขอถึงจำนวนหนึ่งติดต่อกันทำให้บล็อก IP ของคุณเป็นเวลาหลายชั่วโมงหรือหลายวัน .
      อีกครั้งที่เกิดขึ้นกับฉันเมื่อฉันต้องการโคลนวิกิ

    4.    mdir dijo

      ส่วนขยายที่ฉันใช้ใน Firefox ดาวน์โหลดเฉพาะรูปภาพ เรียกว่า "บันทึกภาพ 0.94"

  2.   Pardo dijo

    คำถามคือไฟล์ที่ฉันดาวน์โหลดจะบันทึกไว้ที่ไหน พวกเขาต้องการจะฆ่าฉันใช่ไหม? ฮ่า ๆ

    1.    KZKG ^ กาอาระ dijo

      ไฟล์จะถูกดาวน์โหลดไปยังโฟลเดอร์ที่คุณอยู่ในเทอร์มินัลเมื่อดำเนินการ wget 😉

  3.   auroszx dijo

    อ่าฉันไม่คิดเลยว่า wget จะมีการใช้งานที่น่าสนใจเช่นนี้ ... ตอนนี้เกี่ยวกับการใช้ที่ Courage กล่าวถึง ... ไม่มีคำพูดใด ๆ 😉

  4.   คาร์ลอส-เอ็กซ์เอฟซี dijo

    มีใครรู้บ้างว่ามีปลั๊กอิน WordPress ที่ป้องกันไม่ให้ Wget ดาวน์โหลดบล็อกของคุณ?

  5.   ดาร์ซี dijo

    ดีสุด ๆ ไปเลย !! ขอขอบคุณ

  6.   Piolavski dijo

    ดีมากเรามาลองดูวิธีการขอบคุณสำหรับการสนับสนุน

  7.   ไลแอร์มก dijo

    แม้ว่าฉันจะคิดว่าตัวเองเป็นมือใหม่ แต่ตอนนี้เป็นเรื่องง่ายสำหรับฉันฉันจะลองผสมกับสิ่งอื่น ๆ และดูว่ามันให้อะไร….

  8.   ออสวัลโด dijo

    ฉันหวังว่าคุณจะช่วยฉันได้เพราะเป็นวันจันทร์ที่ 3 ธันวาคม 2012

    โครงการที่จะพัฒนามีดังต่อไปนี้:

    การย้ายเว็บไซต์โดยปรับการอ้างอิง href
    1. พิจารณาเว็บไซต์ดาวน์โหลดไซต์ทั้งหมดไปยังไดเร็กทอรีโลคัลโดยใช้คำสั่ง wget และโดยใช้สคริปต์การประพันธ์ของคุณให้ดำเนินการดังต่อไปนี้:

    1.1. - สร้างไดเร็กทอรีอิสระสำหรับเนื้อหาแต่ละประเภท: รูปภาพ gif, รูปภาพ jpeg, ฯลฯ , วิดีโอ avi, วิดีโอ mpg, ฯลฯ , เสียง mp3, เสียง wav ฯลฯ เนื้อหาเว็บ (HTML, จาวาสคริปต์และอื่น ๆ )

    1.2 - เมื่อย้ายเนื้อหาเหล่านี้แล้วให้ดำเนินการปรับเปลี่ยนการอ้างอิงไปยังตำแหน่งท้องถิ่นของทรัพยากรแต่ละรายการบนไซต์

    1.3.- เปิดใช้งานเว็บเซิร์ฟเวอร์และกำหนดค่าไดเร็กทอรีรากที่มีการสำรองข้อมูลเว็บไซต์เป็นไดเร็กทอรีรากของเว็บเซิร์ฟเวอร์ภายใน

    1.4. - หมายเหตุ: คำสั่ง wget สามารถใช้ได้กับตัวเลือกต่อไปนี้เท่านั้น:
    - เรียกซ้ำ
    - โดเมน
    - ข้อกำหนดของหน้า
    หากจำเป็นต้องใช้คำสั่งเพิ่มเติมด้วยเหตุผลบางประการให้ใช้คำสั่งที่จำเป็น

    1.    KZKG ^ กาอาระ dijo

      ในการดาวน์โหลดที่นี่ฉันคิดว่าคุณมีวิธีแก้ปัญหาในโพสต์ตอนนี้ ... ในการย้ายไฟล์และแทนที่เส้นทางฉันต้องทำอะไรแบบนี้เมื่อไม่นานมานี้ในงานของฉันฉันทิ้งสคริปต์ที่ฉันใช้ไว้ให้คุณ: http://paste.desdelinux.net/4670

      คุณแก้ไขโดยคำนึงถึงประเภทของไฟล์และเส้นทางนั่นคือวิธีการสร้าง. HTML ของไซต์ของคุณและสิ่งนั้น

      นี่ไม่ใช่วิธีแก้ปัญหา 100% เพราะคุณต้องเตรียมการหรือเปลี่ยนแปลงบางอย่าง แต่ฉันรับประกันว่ามันเป็น 70 หรือ 80% ของงานทั้งหมด😉

      1.    ออสวัลโด dijo

        ขอบคุณ KZKG ^ กาอาระเป็นผู้ช่วยฉันมาก

  9.   หนี้ dijo

    ฉันใช้ HTTrack มาโดยตลอด สมุดฝากข้อความสำหรับ Firefox ฉันจะลอง แต่ฉันชอบ wget ขอขอบคุณ!

  10.   Daniel PZ dijo

    ผู้ชายคำสั่งไม่ได้ผลสำหรับฉัน ... อันนี้ใช้ได้ดีสำหรับฉัน:

    wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

    1.    แดเนียล dijo

      ขอบคุณมาก! ฉันใช้มันกับพารามิเตอร์ที่ Daniel PZ เสนอและฉันก็ไม่มีปัญหา🙂

  11.   Ruben Almaguer dijo

    ขอบคุณที่ฉันทำกับ WGet บนลูกสุนัข Linux ของฉัน แต่ฉันไม่รู้วิธีทำในเทอร์มินัล คำทักทาย

  12.   ลูกสูบ dijo

    คุณเก็บเพจไว้ที่ไหน

    1.    ขวาน dijo

      ที่คุณเปิดเทอร์มินัล ในตอนแรกในโฟลเดอร์รูทผู้ใช้ของคุณเว้นแต่คุณจะระบุเส้นทางอื่น

  13.   เฟอร์นันโด dijo

    ดาวน์โหลดลิงค์ด้วยหรือไม่? ดังนั้นหากมีลิงก์ไปยัง pdf หรือเอกสารอื่นคุณดาวน์โหลดด้วยหรือไม่?

  14.   แม่น้ำ dijo

    ฉันจะดาวน์โหลดบล็อกที่สมบูรณ์ของฉันได้อย่างไรฉันลองแล้วสิ่งที่ฉันมองไม่เห็นดูเหมือนจะอยู่ในรหัสหรือถูกบล็อกแม้ว่าจะใช้เวลาดาวน์โหลดนานหลายชั่วโมง แต่สามารถอ่านได้เฉพาะหน้าเริ่มต้นเท่านั้นซึ่งแนะนำให้ฉันดาวน์โหลด บล็อกของฉันขอบคุณ raul

  15.   ราศีสิงห์ dijo

    สวัสดีมีข้อสงสัยว่าเป็นไปได้ที่จะแทนที่ลิงก์ภายใน html เพื่อให้สามารถเรียกดูหน้าที่ดาวน์โหลดได้ในภายหลังราวกับว่าเป็นต้นฉบับ

    สิ่งที่เกิดขึ้นคือฉันดาวน์โหลดเพจและเมื่อฉันเปิดมันจากไฟล์ที่ดาวน์โหลดมาฉันไม่ได้ใช้ไฟล์. css หรือ. js และลิงก์ในเพจจะพาฉันไปที่เพจบนอินเทอร์เน็ต