ดาวน์โหลดทั้งไซต์ด้วย wget แม้ว่าจะมีข้อ จำกัด ก็ตาม

นาทีที่ 4

wget คืออะไร?

ไม่มีอะไรดีไปกว่า วิกิพีเดีย เพื่ออธิบายว่าเครื่องมือนี้ประกอบด้วยอะไร:

GNU ได้รับ เป็นเครื่องมือซอฟต์แวร์ฟรีที่อนุญาตให้ดาวน์โหลดเนื้อหาจากเว็บเซิร์ฟเวอร์ด้วยวิธีง่ายๆ ชื่อนี้มาจาก World Wide Web (w) และจาก "get" (ในภาษาอังกฤษ get) ซึ่งหมายความว่า: get from the WWW

ปัจจุบันรองรับการดาวน์โหลดโดยใช้โปรโตคอล HTTP, HTTPS และ FTP

ในคุณสมบัติที่โดดเด่นที่สุดที่มีให้ wget มีความเป็นไปได้ในการดาวน์โหลดมิเรอร์ที่ซับซ้อนซ้ำ ๆ ได้อย่างง่ายดายการแปลงลิงก์เพื่อแสดงเนื้อหา HTML ในเครื่องรองรับพร็อกซี ...

De wget เราคุยกันมามากพอแล้วที่นี่ที่ DesdeLinux. ในความเป็นจริง ya เราได้เห็นวิธีดาวน์โหลดเว็บไซต์ที่สมบูรณ์ด้วย wget แล้วปัญหาคือในปัจจุบันผู้ดูแลระบบไม่อนุญาตให้ใครดาวน์โหลดเว็บไซต์ทั้งหมดของพวกเขาเสมอไปไม่ใช่สิ่งที่พวกเขาชอบจริงๆ ... และเห็นได้ชัดว่าฉันเข้าใจ ไซต์นี้อยู่บนอินเทอร์เน็ตเพื่อให้คำปรึกษาผู้อ่านเข้าถึงเนื้อหาที่น่าสนใจและผู้ดูแลระบบไซต์จะได้รับประโยชน์ในเชิงเศรษฐกิจ (โดยการโฆษณา) เช่นเดียวกับการเยี่ยมชม หากผู้อ่านดาวน์โหลดไซต์ไปยังคอมพิวเตอร์ของเขาเขาจะไม่ต้องออนไลน์เพื่อดูโพสต์ที่ผ่านมา

ในการดาวน์โหลดไซต์ด้วย wget นั้นทำได้ง่ายเพียง:

wget -r -k http://www.sitio.com

-r : นี่เป็นการระบุว่าจะดาวน์โหลดทั้งเว็บไซต์
-k : สิ่งนี้บ่งชี้ว่าลิงก์ของไซต์ที่ดาวน์โหลดมาจะถูกแปลงให้เห็นบนคอมพิวเตอร์ที่ไม่มีอินเทอร์เน็ต

ตอนนี้สิ่งต่าง ๆ เริ่มซับซ้อนเมื่อผู้ดูแลเว็บไซต์ทำให้เราลำบาก ...

อาจมีข้อ จำกัด อะไรบ้าง?

สิ่งที่เราพบบ่อยที่สุดคือการเข้าถึงไซต์จะได้รับอนุญาตก็ต่อเมื่อคุณมี UserAgent ที่เป็นที่รู้จัก กล่าวอีกนัยหนึ่งไซต์จะรับรู้ว่า UserAgent ที่ดาวน์โหลดหน้าเว็บจำนวนมากไม่ใช่หนึ่งในหน้า "ปกติ" ดังนั้นจะปิดการเข้าถึง

ผ่านไฟล์ robots.txt คุณสามารถระบุ wget (เช่นแอปที่คล้ายกันมากขึ้น) คุณจะไม่สามารถดาวน์โหลดได้ตามที่ลูกค้าต้องการดี ... ผู้ดูแลเว็บไซต์ต้องการช่วงเวลา😀

จะหลีกเลี่ยงข้อ จำกัด เหล่านี้ได้อย่างไร?

สำหรับกรณีแรกเราจะสร้าง UserAgent เพื่อ wget เราสามารถทำได้ด้วยตัวเลือก - ตัวแทนผู้ใช้ฉันจะแสดงให้คุณเห็นว่า:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

ตอนนี้หากต้องการใช้งาน robots.txt ให้แยกไฟล์นั่นคือปล่อยให้ wget ดาวน์โหลดไซต์และไม่สนใจว่า robots.txt พูดว่าอะไร:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

ตอนนี้ ... มีตัวเลือกหรือพารามิเตอร์อื่น ๆ ที่เราสามารถใช้เพื่อหลอกลวงไซต์ได้มากขึ้นเช่นระบุว่าเราเข้าสู่ไซต์จาก Google ที่นี่ฉันทิ้งบรรทัดสุดท้ายไว้กับทุกสิ่ง:

wget --header = "ยอมรับ: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

ไม่ได้บังคับว่าเว็บไซต์จะมี http: // www ที่จุดเริ่มต้นสามารถเป็น http: // โดยตรงได้เช่นเดียวกับตัวอย่างนี้ รีบเรขาคณิต

สามารถทำได้หรือไม่?

ขึ้นอยู่กับว่า ... คุณจะต้องเห็นมันจากทั้งสองมุมมองจากผู้ดูแลไซต์และจากผู้อ่านด้วย

ในแง่หนึ่งในฐานะผู้ดูแลระบบฉันไม่ต้องการให้พวกเขาใช้สำเนา HTML ของไซต์ของฉันแบบนั้นที่นี่ไม่ใช่เพื่อความบันเทิงเพื่อความบันเทิงของทุกคน ... เป้าหมายของเราคือการมีเนื้อหาที่น่าสนใจ สำหรับคุณที่คุณสามารถเรียนรู้

แต่ในทางกลับกัน ... มีผู้ใช้ที่ไม่มีอินเทอร์เน็ตที่บ้านซึ่งต้องการมีส่วนบทช่วยสอนทั้งหมดที่เราได้นำเสนอไว้ที่นี่ ...อันที่จริงฉันเป็นเพราะที่บ้านฉันไม่มีอินเทอร์เน็ต) และไม่เป็นที่พอใจที่จะใช้คอมพิวเตอร์มีปัญหาหรือต้องการทำบางสิ่งบางอย่างและไม่สามารถทำได้เนื่องจากคุณไม่สามารถเข้าถึงเครือข่ายของเครือข่ายได้

ไม่ว่าจะถูกหรือผิดขึ้นอยู่กับผู้ดูแลระบบแต่ละคนความเป็นจริงของแต่ละคน ... สิ่งที่ฉันกังวลมากที่สุดคือการใช้ทรัพยากรที่ก่อให้เกิดบนเซิร์ฟเวอร์ แต่ด้วยระบบแคชที่ดีก็ควรจะเพียงพอสำหรับ เซิร์ฟเวอร์ไม่ประสบ

สรุปผลการวิจัย

ฉันขอให้คุณอย่าเริ่มดาวน์โหลดตอนนี้ DesdeLinux ฮ่า ฮ่า ฮ่า!! ตัวอย่างเช่น แฟนของฉันขอให้ฉันดาวน์โหลด Geometry Dash Cheats (บางอย่างเช่น Geometry Dash Cheats) ฉันจะไม่ดาวน์โหลดทั้งเว็บไซต์ แต่ฉันจะเปิดหน้าที่ต้องการแล้วบันทึกเป็น PDF หรือ HTML หรืออะไรสักอย่าง นั่นคือ นี่คือ สิ่งที่ฉันอยากจะแนะนำให้คุณ

หากคุณมีบทเรียนใด ๆ DesdeLinux ที่คุณต้องการบันทึก ให้บันทึกลงในบุ๊กมาร์กของคุณ เป็น HTML หรือ PDF... แต่สำหรับบทช่วยสอนหนึ่งหรือสองบท ไม่จำเป็นต้องสร้างการรับส่งข้อมูลและการใช้งานมากเกินไปบนเซิร์ฟเวอร์ 😉

หวังว่าคงเป็นประโยชน์ ...

แสดงความคิดเห็นของคุณ ยกเลิกการตอบ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

คิดเห็น *

ชื่อ*

จดหมายอิเล็กทรอนิกส์*

ฉันยอมรับ ข้อกำหนดความเป็นส่วนตัว*

ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา

ฉันต้องการรับจดหมายข่าว

Eliotime3000 dijo
มาแล้ว ปี 10

เคล็ดลับที่น่าสนใจ ฉันไม่รู้ว่าคุณจะทำอย่างนั้นได้

ตอบกลับ eliotime3000
Emmanuel dijo
มาแล้ว ปี 10

มันเป็นสิ่งที่เกิดขึ้นกับฉันสองครั้งอย่างชัดเจนและแน่นอนว่าเป็นเพราะมัน แม้ว่าจะเป็นเพราะเหตุผลด้านความเร็ว (บ้านกับมหาวิทยาลัย) ที่ฉันต้องการเข้าถึงเนื้อหาด้วยวิธีนั้น 😛
ขอบคุณสำหรับคำแนะนำ. ความนับถือ.

ตอบกลับ Emmanuel
Gerardo dijo
มาแล้ว ปี 10

เหมาะสำหรับพวกเราที่ไม่มีอินเทอร์เน็ต บทเรียนที่ดีอย่างแน่นอน

ตอบกลับ Gerardo
ควินอตโต้ dijo
มาแล้ว ปี 10

บทความที่น่าสนใจมาก
คำถาม: ทำอย่างไรสำหรับไซต์ https
จำเป็นต้องตรวจสอบความถูกต้องโดยใช้ชื่อผู้ใช้และรหัสผ่านที่ไหนและเว็บไซต์ส่วนใหญ่เขียนด้วยภาษาจาวา
ทักทายและขอบคุณ

ตอบกลับ Quinotto
เจลลิโพแทสเซียม dijo
มาแล้ว ปี 10

และบันทึกการดาวน์โหลดไว้ที่ไหน

ตอบสนองต่อ Gelibasio
1. เจลลิโพแทสเซียม dijo
  มาแล้ว ปี 10
  
  ฉันตอบตัวเอง: ในโฟลเดอร์ส่วนตัว แต่ตอนนี้คำถามคือ ... คุณช่วยบอกเขาได้ไหมว่าจะดาวน์โหลดเนื้อหาได้ที่ไหน?
  
  ขอบคุณ
  
  ตอบสนองต่อ Gelibasio
  1. แดเนียล dijo
    มาแล้ว ปี 10
    
    ฉันเดาว่าคุณเข้าถึงโฟลเดอร์ที่คุณต้องการบันทึกก่อนแล้วจึงเรียกใช้ wget
    
    ตอบกลับแดเนียล
Cristian dijo
มาแล้ว ปี 10

แบบสอบถาม ... และจะมีบางอย่างเช่นนี้เพื่อ "โคลน" ฐานข้อมูล

ตอบกลับ cristian
xphnx dijo
มาแล้ว ปี 10

ฉันอยากรู้อยากเห็นคุณได้รับเงินจากการวางลิงค์เหล่านั้นไปยังเว็บไซต์ขนาดเล็กหรือไม่?

ตอบกลับ xphnx
รูเปอร์โต dijo
มาแล้ว ปี 10

มีความสุขมาก ... นั่นคือวิธีที่ฉันดาวน์โหลดสื่อลามกจำนวนมากในวันหมูของฉัน xD

ตอบกลับ Ruperto
อลูนาโด dijo
มาแล้ว ปี 10

เคล็ดลับที่ดี ขอบคุณ

ตอบกลับ alunado
NULL dijo
มาแล้ว ปี 10

ดีมากฉันชอบส่วนที่เกี่ยวกับการหลีกเลี่ยงข้อ จำกัด

ตอบกลับ NULL
ฟรานซ์ dijo
มาแล้ว ปี 10

ขอบคุณสำหรับอัญมณีนั้น:
wget –header = »ยอมรับ: text / html » –user-agent = » Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31″ –referer = http: //www.google.com - ร https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = ปิด

wget –header = »ยอมรับ: text / html » –user-agent = » Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31″ –referer = http: //www.google.com - ร https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = ปิด

wget –header = »ยอมรับ: text / html » –user-agent = » Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31″ –referer = http: //www.google.com - ร https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = ปิด

ตอบกลับ Franz
Palomares dijo
มาแล้ว ปี 10

ที่น่าสนใจมาก

ตอบกลับ Palomares
ออสการ์เมซ่า dijo
มาแล้ว ปี 10

wget เป็นหนึ่งในเครื่องมือทรงพลังพิเศษเหล่านั้นด้วยการเขียนโปรแกรมเทอร์มินัลเพียงเล็กน้อยคุณสามารถสร้างหุ่นยนต์สไตล์ Google ของคุณเองเพื่อเริ่มดาวน์โหลดเนื้อหาของหน้าเว็บและเก็บไว้ในฐานข้อมูลของคุณเองและทำสิ่งที่คุณต้องการในภายหลังด้วยข้อมูลนั้น

ตอบกลับ Oscar Meza
คาร์ลอสจี dijo
มาแล้ว ปี 9

ฉันพบว่าเครื่องมือนี้น่าสนใจมากฉันไม่เคยใส่ใจกับพารามิเตอร์ของมันเลยฉันต้องการทราบว่าเป็นไปได้หรือไม่ที่จะดาวน์โหลดเนื้อหาจากหน้า« X »ซึ่งคุณต้องลงชื่อเข้าใช้เพื่อเข้าสู่และหากอยู่ที่ไหนสักแห่ง ในไซต์« X »มีวิดีโอหรือไม่ฉันจะดาวน์โหลดได้หรือไม่แม้ว่าจะเป็นของ CDN อื่นที่ไม่ใช่ไซต์« X »

หากเป็นไปได้เว็บไซต์จะป้องกันเครื่องมือดังกล่าวได้อย่างไร

ทักทาย!

ตอบกลับ Carlos G
Erick zanardi dijo
มาแล้ว ปี 9

ราตรีสวัสดิ์:

ฉันเขียนจดหมายถึงคุณเพื่อขอคำปรึกษา ฉันดาวน์โหลดด้วยคำสั่งสุดท้ายของบทความนี้ข้อมูลเกือบ 300MB .. ไฟล์. swf, .js, .html จากหน้า http://www.netacad.com/es กับผู้ใช้ของฉันจากหลักสูตรเล็ก ๆ ที่ฉันทำใน Maracay ประเทศเวเนซุเอลา

คำถามของฉันคือ…จะเห็นภาพเคลื่อนไหวแฟลชได้หรือไม่?

ฉันป้อน "Global Configuration" และตัวเลือกที่แสดงว่าไม่อนุญาตให้ฉันกำหนดค่า

ฉันขอขอบคุณทุกคำตอบ

ขอบคุณล่วงหน้า!

ตอบกลับ Erick Zanardi
1. ADX dijo
  มาแล้ว ปี 9
  
  ฉันมีรายละเอียดเหมือนกันมีการดาวน์โหลด. swf ครึ่งหนึ่งหากคุณสามารถข้ามได้โปรดแบ่งปันข้อมูลให้ฉัน สิ่งที่ฉันพยายามครั้งสุดท้ายคือใช้สไปเดอร์เพื่อรับลิงก์ netacad ทั้งหมด แต่ยังคงดาวน์โหลด. swf ไม่เสร็จเท่าที่ควร
  
  ตอบกลับ ADX
alexander.hernandez dijo
มาแล้ว ปี 8

ดีมาก !!! ขอบคุณ.

ตอบกลับ alejandro.hernandez
อานา dijo
มาแล้ว ปี 8

สวัสดีขอบคุณสำหรับ tuto ของคุณ ฉันกำลังพยายามดาวน์โหลดบล็อกที่ฉันได้รับเชิญพร้อมรหัสผ่านเพื่อที่ฉันจะได้อ่านจากที่บ้านโดยไม่ต้องเชื่อมต่อ ฉันใช้โปรแกรมนี้และเห็นได้ชัดว่าฉันมีรหัสผ่านของบล็อก (wordpress) แต่ฉันไม่รู้ว่าจะดำเนินการอย่างไร แสดงให้ฉันดูได้ไหม?
ขอบคุณล่วงหน้าและขอแสดงความนับถือ!

ตอบกลับ Ana
ฟราน dijo
มาแล้ว ปี 7

ช่างเป็นกระทู้เด็ด !!!

ตอบกลับ Fran
ซานติอาโก dijo
มาแล้ว ปี 7

ยอดเยี่ยมมันให้บริการฉันมาก

ตอบกลับ Santiago
ฟราน dijo
มาแล้ว ปี 7

ฉันลงชื่อเข้าใช้เว็บไซต์ที่มีวิดีโอ vimeo ฝังอยู่และไม่มีวิธีใดที่จะดาวน์โหลดได้ .. ดูเหมือนว่า vimeo ได้รับการป้องกัน ความคิดใด ๆ ??

ตอบกลับ Fran