wget คืออะไร?
ไม่มีอะไรดีไปกว่า วิกิพีเดีย เพื่ออธิบายว่าเครื่องมือนี้ประกอบด้วยอะไร:
GNU ได้รับ เป็นเครื่องมือซอฟต์แวร์ฟรีที่อนุญาตให้ดาวน์โหลดเนื้อหาจากเว็บเซิร์ฟเวอร์ด้วยวิธีง่ายๆ ชื่อนี้มาจาก World Wide Web (w) และจาก "get" (ในภาษาอังกฤษ get) ซึ่งหมายความว่า: get from the WWW
ปัจจุบันรองรับการดาวน์โหลดโดยใช้โปรโตคอล HTTP, HTTPS และ FTP
ในคุณสมบัติที่โดดเด่นที่สุดที่มีให้ wget มีความเป็นไปได้ในการดาวน์โหลดมิเรอร์ที่ซับซ้อนซ้ำ ๆ ได้อย่างง่ายดายการแปลงลิงก์เพื่อแสดงเนื้อหา HTML ในเครื่องรองรับพร็อกซี ...
De wget เราคุยกันมามากพอแล้วที่นี่ที่ DesdeLinux. ในความเป็นจริง ya เราได้เห็นวิธีดาวน์โหลดเว็บไซต์ที่สมบูรณ์ด้วย wget แล้วปัญหาคือในปัจจุบันผู้ดูแลระบบไม่อนุญาตให้ใครดาวน์โหลดเว็บไซต์ทั้งหมดของพวกเขาเสมอไปไม่ใช่สิ่งที่พวกเขาชอบจริงๆ ... และเห็นได้ชัดว่าฉันเข้าใจ ไซต์นี้อยู่บนอินเทอร์เน็ตเพื่อให้คำปรึกษาผู้อ่านเข้าถึงเนื้อหาที่น่าสนใจและผู้ดูแลระบบไซต์จะได้รับประโยชน์ในเชิงเศรษฐกิจ (โดยการโฆษณา) เช่นเดียวกับการเยี่ยมชม หากผู้อ่านดาวน์โหลดไซต์ไปยังคอมพิวเตอร์ของเขาเขาจะไม่ต้องออนไลน์เพื่อดูโพสต์ที่ผ่านมา
ในการดาวน์โหลดไซต์ด้วย wget นั้นทำได้ง่ายเพียง:
wget -r -k http://www.sitio.com
- -r : นี่เป็นการระบุว่าจะดาวน์โหลดทั้งเว็บไซต์
- -k : สิ่งนี้บ่งชี้ว่าลิงก์ของไซต์ที่ดาวน์โหลดมาจะถูกแปลงให้เห็นบนคอมพิวเตอร์ที่ไม่มีอินเทอร์เน็ต
ตอนนี้สิ่งต่าง ๆ เริ่มซับซ้อนเมื่อผู้ดูแลเว็บไซต์ทำให้เราลำบาก ...
อาจมีข้อ จำกัด อะไรบ้าง?
สิ่งที่เราพบบ่อยที่สุดคือการเข้าถึงไซต์จะได้รับอนุญาตก็ต่อเมื่อคุณมี UserAgent ที่เป็นที่รู้จัก กล่าวอีกนัยหนึ่งไซต์จะรับรู้ว่า UserAgent ที่ดาวน์โหลดหน้าเว็บจำนวนมากไม่ใช่หนึ่งในหน้า "ปกติ" ดังนั้นจะปิดการเข้าถึง
ผ่านไฟล์ robots.txt คุณสามารถระบุ wget (เช่นแอปที่คล้ายกันมากขึ้น) คุณจะไม่สามารถดาวน์โหลดได้ตามที่ลูกค้าต้องการดี ... ผู้ดูแลเว็บไซต์ต้องการช่วงเวลา😀
จะหลีกเลี่ยงข้อ จำกัด เหล่านี้ได้อย่างไร?
สำหรับกรณีแรกเราจะสร้าง UserAgent เพื่อ wget เราสามารถทำได้ด้วยตัวเลือก - ตัวแทนผู้ใช้ฉันจะแสดงให้คุณเห็นว่า:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k
ตอนนี้หากต้องการใช้งาน robots.txt ให้แยกไฟล์นั่นคือปล่อยให้ wget ดาวน์โหลดไซต์และไม่สนใจว่า robots.txt พูดว่าอะไร:
wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off
ตอนนี้ ... มีตัวเลือกหรือพารามิเตอร์อื่น ๆ ที่เราสามารถใช้เพื่อหลอกลวงไซต์ได้มากขึ้นเช่นระบุว่าเราเข้าสู่ไซต์จาก Google ที่นี่ฉันทิ้งบรรทัดสุดท้ายไว้กับทุกสิ่ง:
wget --header = "ยอมรับ: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k
สามารถทำได้หรือไม่?
ขึ้นอยู่กับว่า ... คุณจะต้องเห็นมันจากทั้งสองมุมมองจากผู้ดูแลไซต์และจากผู้อ่านด้วย
ในแง่หนึ่งในฐานะผู้ดูแลระบบฉันไม่ต้องการให้พวกเขาใช้สำเนา HTML ของไซต์ของฉันแบบนั้นที่นี่ไม่ใช่เพื่อความบันเทิงเพื่อความบันเทิงของทุกคน ... เป้าหมายของเราคือการมีเนื้อหาที่น่าสนใจ สำหรับคุณที่คุณสามารถเรียนรู้
แต่ในทางกลับกัน ... มีผู้ใช้ที่ไม่มีอินเทอร์เน็ตที่บ้านซึ่งต้องการมีส่วนบทช่วยสอนทั้งหมดที่เราได้นำเสนอไว้ที่นี่ ...อันที่จริงฉันเป็นเพราะที่บ้านฉันไม่มีอินเทอร์เน็ต) และไม่เป็นที่พอใจที่จะใช้คอมพิวเตอร์มีปัญหาหรือต้องการทำบางสิ่งบางอย่างและไม่สามารถทำได้เนื่องจากคุณไม่สามารถเข้าถึงเครือข่ายของเครือข่ายได้
ไม่ว่าจะถูกหรือผิดขึ้นอยู่กับผู้ดูแลระบบแต่ละคนความเป็นจริงของแต่ละคน ... สิ่งที่ฉันกังวลมากที่สุดคือการใช้ทรัพยากรที่ก่อให้เกิดบนเซิร์ฟเวอร์ แต่ด้วยระบบแคชที่ดีก็ควรจะเพียงพอสำหรับ เซิร์ฟเวอร์ไม่ประสบ
สรุปผลการวิจัย
ฉันขอให้คุณอย่าเริ่มดาวน์โหลดตอนนี้ DesdeLinux ฮ่า ฮ่า ฮ่า!! ตัวอย่างเช่น แฟนของฉันขอให้ฉันดาวน์โหลด Geometry Dash Cheats (บางอย่างเช่น Geometry Dash Cheats) ฉันจะไม่ดาวน์โหลดทั้งเว็บไซต์ แต่ฉันจะเปิดหน้าที่ต้องการแล้วบันทึกเป็น PDF หรือ HTML หรืออะไรสักอย่าง นั่นคือ นี่คือ สิ่งที่ฉันอยากจะแนะนำให้คุณ
หากคุณมีบทเรียนใด ๆ DesdeLinux ที่คุณต้องการบันทึก ให้บันทึกลงในบุ๊กมาร์กของคุณ เป็น HTML หรือ PDF... แต่สำหรับบทช่วยสอนหนึ่งหรือสองบท ไม่จำเป็นต้องสร้างการรับส่งข้อมูลและการใช้งานมากเกินไปบนเซิร์ฟเวอร์ 😉
หวังว่าคงเป็นประโยชน์ ...
เคล็ดลับที่น่าสนใจ ฉันไม่รู้ว่าคุณจะทำอย่างนั้นได้
มันเป็นสิ่งที่เกิดขึ้นกับฉันสองครั้งอย่างชัดเจนและแน่นอนว่าเป็นเพราะมัน แม้ว่าจะเป็นเพราะเหตุผลด้านความเร็ว (บ้านกับมหาวิทยาลัย) ที่ฉันต้องการเข้าถึงเนื้อหาด้วยวิธีนั้น 😛
ขอบคุณสำหรับคำแนะนำ. ความนับถือ.
เหมาะสำหรับพวกเราที่ไม่มีอินเทอร์เน็ต บทเรียนที่ดีอย่างแน่นอน
บทความที่น่าสนใจมาก
คำถาม: ทำอย่างไรสำหรับไซต์ https
จำเป็นต้องตรวจสอบความถูกต้องโดยใช้ชื่อผู้ใช้และรหัสผ่านที่ไหนและเว็บไซต์ส่วนใหญ่เขียนด้วยภาษาจาวา
ทักทายและขอบคุณ
และบันทึกการดาวน์โหลดไว้ที่ไหน
ฉันตอบตัวเอง: ในโฟลเดอร์ส่วนตัว แต่ตอนนี้คำถามคือ ... คุณช่วยบอกเขาได้ไหมว่าจะดาวน์โหลดเนื้อหาได้ที่ไหน?
ขอบคุณ
ฉันเดาว่าคุณเข้าถึงโฟลเดอร์ที่คุณต้องการบันทึกก่อนแล้วจึงเรียกใช้ wget
แบบสอบถาม ... และจะมีบางอย่างเช่นนี้เพื่อ "โคลน" ฐานข้อมูล
ฉันอยากรู้อยากเห็นคุณได้รับเงินจากการวางลิงค์เหล่านั้นไปยังเว็บไซต์ขนาดเล็กหรือไม่?
มีความสุขมาก ... นั่นคือวิธีที่ฉันดาวน์โหลดสื่อลามกจำนวนมากในวันหมูของฉัน xD
เคล็ดลับที่ดี ขอบคุณ
ดีมากฉันชอบส่วนที่เกี่ยวกับการหลีกเลี่ยงข้อ จำกัด
ขอบคุณสำหรับอัญมณีนั้น:
wget –header = »ยอมรับ: text / html » –user-agent = » Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31″ –referer = http: //www.google.com - ร https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = ปิด
wget –header = »ยอมรับ: text / html » –user-agent = » Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31″ –referer = http: //www.google.com - ร https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = ปิด
wget –header = »ยอมรับ: text / html » –user-agent = » Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31″ –referer = http: //www.google.com - ร https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = ปิด
ที่น่าสนใจมาก
wget เป็นหนึ่งในเครื่องมือทรงพลังพิเศษเหล่านั้นด้วยการเขียนโปรแกรมเทอร์มินัลเพียงเล็กน้อยคุณสามารถสร้างหุ่นยนต์สไตล์ Google ของคุณเองเพื่อเริ่มดาวน์โหลดเนื้อหาของหน้าเว็บและเก็บไว้ในฐานข้อมูลของคุณเองและทำสิ่งที่คุณต้องการในภายหลังด้วยข้อมูลนั้น
ฉันพบว่าเครื่องมือนี้น่าสนใจมากฉันไม่เคยใส่ใจกับพารามิเตอร์ของมันเลยฉันต้องการทราบว่าเป็นไปได้หรือไม่ที่จะดาวน์โหลดเนื้อหาจากหน้า« X »ซึ่งคุณต้องลงชื่อเข้าใช้เพื่อเข้าสู่และหากอยู่ที่ไหนสักแห่ง ในไซต์« X »มีวิดีโอหรือไม่ฉันจะดาวน์โหลดได้หรือไม่แม้ว่าจะเป็นของ CDN อื่นที่ไม่ใช่ไซต์« X »
หากเป็นไปได้เว็บไซต์จะป้องกันเครื่องมือดังกล่าวได้อย่างไร
ทักทาย!
ราตรีสวัสดิ์:
ฉันเขียนจดหมายถึงคุณเพื่อขอคำปรึกษา ฉันดาวน์โหลดด้วยคำสั่งสุดท้ายของบทความนี้ข้อมูลเกือบ 300MB .. ไฟล์. swf, .js, .html จากหน้า http://www.netacad.com/es กับผู้ใช้ของฉันจากหลักสูตรเล็ก ๆ ที่ฉันทำใน Maracay ประเทศเวเนซุเอลา
คำถามของฉันคือ…จะเห็นภาพเคลื่อนไหวแฟลชได้หรือไม่?
ฉันป้อน "Global Configuration" และตัวเลือกที่แสดงว่าไม่อนุญาตให้ฉันกำหนดค่า
ฉันขอขอบคุณทุกคำตอบ
ขอบคุณล่วงหน้า!
ฉันมีรายละเอียดเหมือนกันมีการดาวน์โหลด. swf ครึ่งหนึ่งหากคุณสามารถข้ามได้โปรดแบ่งปันข้อมูลให้ฉัน สิ่งที่ฉันพยายามครั้งสุดท้ายคือใช้สไปเดอร์เพื่อรับลิงก์ netacad ทั้งหมด แต่ยังคงดาวน์โหลด. swf ไม่เสร็จเท่าที่ควร
ดีมาก !!! ขอบคุณ.
สวัสดีขอบคุณสำหรับ tuto ของคุณ ฉันกำลังพยายามดาวน์โหลดบล็อกที่ฉันได้รับเชิญพร้อมรหัสผ่านเพื่อที่ฉันจะได้อ่านจากที่บ้านโดยไม่ต้องเชื่อมต่อ ฉันใช้โปรแกรมนี้และเห็นได้ชัดว่าฉันมีรหัสผ่านของบล็อก (wordpress) แต่ฉันไม่รู้ว่าจะดำเนินการอย่างไร แสดงให้ฉันดูได้ไหม?
ขอบคุณล่วงหน้าและขอแสดงความนับถือ!
ช่างเป็นกระทู้เด็ด !!!
ยอดเยี่ยมมันให้บริการฉันมาก
ฉันลงชื่อเข้าใช้เว็บไซต์ที่มีวิดีโอ vimeo ฝังอยู่และไม่มีวิธีใดที่จะดาวน์โหลดได้ .. ดูเหมือนว่า vimeo ได้รับการป้องกัน ความคิดใด ๆ ??