Pobierz pełną stronę internetową za pomocą wget, nawet jeśli istnieją ograniczenia

Co to jest wget?

Nie ma nic lepszego niż Wikipedia aby wyjaśnić, z czego składa się to narzędzie:

GNU Wget to bezpłatne narzędzie programowe, które w prosty sposób umożliwia pobieranie treści z serwerów internetowych. Jego nazwa pochodzi od World Wide Web (w), a od „get” (w języku angielskim get), co oznacza: pobierz z WWW.

Obecnie obsługuje pobieranie przy użyciu protokołów HTTP, HTTPS i FTP.

Jedną z najbardziej wyjątkowych funkcji, jakie oferuje wget istnieje możliwość łatwego pobierania złożonych serwerów lustrzanych rekurencyjnie, konwersja linków do lokalnego wyświetlania treści HTML, obsługa serwerów proxy ...

De wget Wystarczająco już rozmawialiśmy tutaj o godz DesdeLinux. w rzeczywistości ya Widzieliśmy, jak pobrać kompletną stronę internetową za pomocą wget, problem polega na tym, że obecnie administratorzy nie zawsze pozwalają nikomu pobrać całą swoją witrynę po prostu w ten sposób, nie jest to coś, co naprawdę lubią ... i oczywiście rozumiem. Witryna jest dostępna w Internecie, aby się z nią zapoznać, czytelnik uzyskuje dostęp do interesujących ją treści, a administrator witryny czerpie dobre korzyści finansowe (poprzez reklamy), takie jak odwiedziny itp. Jeśli czytelnik pobierze witrynę na swój komputer, nie będzie musiał przechodzić do trybu online, aby zapoznać się z poprzednim postem.

Aby pobrać witrynę za pomocą wget, jest tak proste, jak:

wget -r -k http://www.sitio.com

-r : Oznacza to, że zostanie pobrana cała witryna.
-k : Oznacza to, że linki do pobranej witryny zostaną przekonwertowane, aby można było je zobaczyć na komputerach bez internetu.

Teraz sytuacja się komplikuje, gdy administrator witryny nam to utrudnia ...

Jakie ograniczenia mogą obowiązywać?

Najczęstszym stwierdzeniem jest to, że dostęp do witryny jest dozwolony tylko wtedy, gdy masz uznanego agenta użytkownika. Innymi słowy, witryna rozpozna, że UserAgent, który pobiera tak wiele stron, nie należy do „normalnych” i dlatego zablokuje dostęp.

Również w pliku robots.txt możesz określić, że wget (jak kilka innych podobnych aplikacji) Nie będzie można pobierać zgodnie z życzeniem klienta, no cóż, administrator witryny tego chce, kropka 😀

Jak obejść te ograniczenia?

W pierwszym przypadku ustalimy UserAgent do wget, możemy to zrobić za pomocą opcji -Agent użytkownika, tutaj pokażę ci, jak:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k

Teraz, aby obejść plik robots.txt, po prostu wyklucz ten plik, czyli pozwól wget pobrać witrynę i nie przejmuj się tym, co mówi plik robots.txt:

wget --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" -r http://www.site.com -k -e robots = off

Teraz ... są inne opcje lub parametry, które możemy wykorzystać do dalszego oszukania strony, np. Wskazać, że wchodzimy na stronę z Google, tutaj ostatnią linijkę zostawiam ze wszystkim:

wget --header = "Akceptuj: text / html" --user-agent = "Mozilla / 5.0 (X11; Linux amd64; rv: 32.0b4) Gecko / 20140804164216 ArchLinux KDE Firefox / 32.0b4" --referer = http: / /www.google.com -r http://www.site.com -e robots = off -k

Nie jest obowiązkowe, aby strona zawierała http: // www na początku, może to być bezpośrednio http: // jak na przykład ta Geometria Dash

Czy można to zrobić?

To zależy ... zawsze musisz patrzeć na to z obu punktów widzenia, od administratora strony, ale także od czytelnika.

Z jednej strony jako administrator nie chciałbym, aby w ten sposób pobierali kopię HTML mojej witryny, jest ona tutaj online, a nie dla przyjemności, dla przyjemności wszystkich ... naszym celem jest udostępnienie Ci interesujących treści, których możesz się nauczyć.

Ale z drugiej strony ... są użytkownicy, którzy nie mają internetu w domu, którzy chcieliby mieć całą sekcję Poradników, którą tu umieściliśmy ... stawiam się na ich miejscu (właściwie jestem, bo w domu nie mam internetu) i nie jest przyjemnie być przy komputerze, mieć problem lub chcieć coś zrobić, a nie może, bo nie masz dostępu do sieci sieci.

To, czy jest to dobre, czy złe, zależy od każdego administratora, rzeczywistości każdego z nich ... najbardziej martwi mnie zużycie zasobów, które wget powoduje na serwerze, ale z dobrym systemem pamięci podręcznej serwer nie cierpi.

Wnioski

Proszę, aby nie rozpoczynać pobierania teraz. DesdeLinux HAHAHA!! Na przykład moja dziewczyna poprosiła mnie o pobranie niektórych kodów Geometry Dash (coś w rodzaju kodów Geometry Dash), nie pobiorę całej witryny, ale po prostu otworzę żądaną stronę i zapiszę ją w formacie PDF lub HTML lub czymś takim, to jest co bym Ci polecił.

Jeśli masz jakiś tutorial DesdeLinux który chcesz zapisać, zapisz go w swoich zakładkach, jako HTML lub PDF... ale w przypadku jednego lub dwóch tutoriali nie jest konieczne generowanie nadmiernego ruchu i zużycia na serwerze 😉

No nic, mam nadzieję, że się przyda ... Pozdrowienia

23 komentarzy, zostaw swoje

Zostaw swój komentarz Anuluj odpowiedź

Eliotime3000 powiedział
temu 9 roku

Ciekawa wskazówka. Nie wiedziałem, że możesz to zrobić.

Odpowiedz eliotime3000
Emmanuel powiedział
temu 9 roku

Jest to wyraźnie to, co przydarzyło mi się dwukrotnie iz pewnością z tego powodu. Chociaż ze względu na szybkość (dom vs uniwersytet) chciałem uzyskać dostęp do treści w ten sposób. 😛
Dzięki za radę. Pozdrowienia.

Odpowiedz Emmanuelowi
Gerardo powiedział
temu 9 roku

Świetne dla tych z nas, którzy nie mają internetu. Z pewnością dobre tutoriale.

Odpowiedz Gerardo
Quinotto powiedział
temu 9 roku

Bardzo ciekawy artykuł.
Pytanie: jak to zrobić w przypadku witryn https?
Gdzie wymagane jest uwierzytelnianie za pomocą nazwy użytkownika i hasła, a także duża część witryny jest napisana w języku java?
Pozdrowienia i podziękowania

Odpowiedz Quinotto
Gelibas powiedział
temu 9 roku

i gdzie są zapisywane pobrane pliki?

Odpowiedz na Gelibasio
1. Gelibas powiedział
  temu 9 roku
  
  Odpowiadam sobie: w folderze osobistym. Ale teraz pytanie brzmi ... czy możesz mu w jakiś sposób powiedzieć, skąd pobrać zawartość?
  
  graciass
  
  Odpowiedz na Gelibasio
  1. Daniel powiedział
    temu 9 roku
    
    Domyślam się, że najpierw uzyskujesz dostęp do folderu, w którym chcesz go zapisać, a następnie uruchamiasz wget
    
    Odpowiedz Danielowi
Cristian powiedział
temu 9 roku

zapytanie ... i będzie coś takiego do "klonowania" bazy danych

Odpowiedz cristian
xphnx powiedział
temu 9 roku

Ciekaw jestem, czy otrzymujesz pieniądze za umieszczenie tych linków do stron mikro-niszowych?

Odpowiedz xphnx
Rupert powiedział
temu 9 roku

Błogosławiony wget… w ten sposób ściągnąłem dużo porno w moich czasach świni xD

Odpowiedz Ruperto
księżycowy powiedział
temu 9 roku

dobra wskazówka. dzięki

Odpowiedz alunado
NULL powiedział
temu 9 roku

Bardzo dobrze, podobał mi się fragment o omijaniu ograniczeń.

Odpowiedz na NULL
Franz powiedział
temu 9 roku

Dzięki za ten klejnot:
wget –header = »Akceptuj: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-image-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off

wget –header = »Akceptuj: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3_3.6.11-gnu-3.rt25.precise1_all.deb -k -e robots = off

wget –header = »Akceptuj: text / html» –user-agent = »Mozilla / 5.0 (X11; Linux i686; rv: 31) Gecko / 20100101 Firefox / 31 ″ –referer = http: //www.google.com - r https://launchpad.net/~linux-libre/+archive/ubuntu/rt-ppa/+files/linux-headers-3.6.11-gnu-3-generic_3.6.11-gnu-3.rt25.precise1_i386.deb -k -e robots = off

Odpowiedz Franzowi
Palomares powiedział
temu 9 roku

Bardzo interesujące.

Odpowiedz Palomares
Oscar meza powiedział
temu 9 roku

wget jest jednym z tych niezwykle potężnych narzędzi, dzięki niewielkiemu programowaniu terminali możesz stworzyć własnego robota w stylu google, aby rozpocząć pobieranie zawartości stron i przechowywać ją we własnej bazie danych, a później robić z tymi danymi, co zechcesz.

Odpowiedz Oscar Meza
Carlos G. powiedział
temu 9 roku

Uważam, że to narzędzie jest bardzo interesujące, nigdy nie zwracałem uwagi na jego parametry, chciałbym wiedzieć, czy możliwe jest pobranie treści ze strony «X», do której musisz być zalogowany, aby wejść i czy gdzieś jest czy na tej stronie „X” jest jakiś film, czy mógłbym go również pobrać, nawet gdyby należał do innego CDN niż witryna „X”?

Gdyby to było możliwe, w jaki sposób strona chroni się przed takim narzędziem?

Pozdrowienia!

Odpowiedz Carlos G
Ericka Zanardiego powiedział
temu 9 roku

Dobranoc:

Piszę do Ciebie na konsultację. Ostatnim poleceniem tego artykułu pobrałem ze strony prawie 300 MB informacji .. plików .swf, .js, .html http://www.netacad.com/es z moim użytkownikiem z małego kursu, który zrobiłem w Maracay w Wenezueli.

Moje pytanie brzmi… Czy będzie można zobaczyć animacje flashowe?

Wchodzę w „Global Configuration” i opcje, które tam nie są, nie pozwalają mi na konfigurację.

Doceniam każdą odpowiedź.

Dzięki z góry!

Odpowiedz Erick Zanardi
1. ADX powiedział
  temu 9 roku
  
  Mam te same szczegóły, pliki .swf są pobierane w połowie, jeśli uda ci się to pominąć, udostępnij mi informacje. Ostatnią próbą było użycie pająka, aby uzyskać wszystkie linki do netacad, ale nadal plik .swf nie kończy się pobierać tak, jak powinien
  
  Odpowiedz ADX
alexander.hernandez powiedział
temu 8 roku

bardzo dobre !!! dzięki.

Odpowiedz alejandro.hernandez
Ana powiedział
temu 8 roku

Cześć, dzięki za twojego tuto. Próbuję pobrać bloga, na który jestem zaproszony, z hasłem, aby móc go czytać z domu bez połączenia. Używam tego programu i oczywiście mam hasło do bloga (wordpress), ale nie wiem jak dalej. Czy mógłbyś mi pokazać?
Z góry dzięki i pozdrawiam!

Odpowiedz Ana
Fran powiedział
temu 7 roku

co za wspaniały post !!!

Odpowiedz Fran
Santiago powiedział
temu 7 roku

wspaniale, bardzo mi służyło

Odpowiedz Santiago
Fran powiedział
temu 7 roku

Jestem zalogowany na stronie internetowej z osadzonymi filmami vimeo i nie ma możliwości ich pobrania. Wygląda na to, że vimeo ma je chronione. Jakieś pomysły??

Odpowiedz Fran