Z terminalem: Pobierz kompletną stronę internetową z Wget

Nie ma nic lepszego niż Wikipedia aby wyjaśnić, z czego składa się to narzędzie:

GNU Wget to bezpłatne narzędzie programowe, które w prosty sposób umożliwia pobieranie treści z serwerów internetowych. Jego nazwa pochodzi od World Wide Web (w), a od „get” (w języku angielskim get), co oznacza: pobierz z WWW.

Obecnie obsługuje pobieranie przy użyciu protokołów HTTP, HTTPS i FTP.

Jedną z najbardziej wyjątkowych funkcji, jakie oferuje wget istnieje możliwość łatwego pobierania złożonych serwerów lustrzanych rekurencyjnie, konwersja linków do lokalnego wyświetlania treści HTML, obsługa serwerów proxy ...

Prawdą jest, że istnieją inne aplikacje, które pomagają nam wykonywać tego typu prace np httrack lub nawet rozszerzenia dla Firefox jako Album na wycinki, ale w niczym nie przypomina prostoty terminala 😀

Robi magię

Byłem ciekawy filmu: The Social Network, jako postać mark_zuckerberg użyj wyrażenia: «Trochę magicznego wget«, Kiedy miałem pobrać zdjęcia do Facemash 😀 i to prawda, wget pozwala robić magię z odpowiednimi parametrami.

Spójrzmy na kilka przykładów, zacznijmy od prostego użycia narzędzia.

Aby przejść w dół strony:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

Aby rekurencyjnie pobrać całą witrynę, w tym obrazy i inne typy danych:

$ wget -r https://blog.desdelinux.net/

I tu pojawia się magia. Jak wyjaśniają nam w artykule Ludziewiele witryn weryfikuje tożsamość przeglądarki, aby zastosować różne ograniczenia. Z wget możemy to obejść w następujący sposób:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Lub możemy też robić przerwy między każdą stroną, ponieważ w przeciwnym razie właściciel witryny może zdać sobie sprawę, że pobieramy witrynę w całości za pomocą wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.

  1.   pandev92 powiedział

    Jest coś do ściągnięcia tylko obrazów xd?

    1.    Odwaga powiedział

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Że właśnie przeczytałem w twoich myślach hahahaha

      1.    pandev92 powiedział

        lol oo xd

    2.    KZKG ^ Gaara powiedział

      człowiek wget 😉

      1.    pandev92 powiedział

        Życie jest zbyt krótkie, by czytać mężczyźnie.

        1.    KZKG ^ Gaara powiedział

          Życie jest zbyt krótkie, aby wypełnić mózg informacjami, ale warto spróbować 🙂

          1.    pandev92 powiedział

            Informacja jest warta połowę, wolę wypełniać ją kobietami, grami i pieniędzmi jeśli to możliwe XD.

          2.    Odwaga powiedział

            Zawsze, kurwa, myślisz o kobietach. Odtąd będziesz słuchać Dadee Yankee, Don Omara i Wisin Y Yandel, tak jak robi to KZKG ^ Gaara.

            Poświęć się lepiej pieniądzom, które są najważniejsze w tym życiu

            1.    KZKG ^ Gaara powiedział

              Są rzeczy, które są warte znacznie więcej niż pieniądze… na przykład bycie w historii, zmienianie świata, bycie zapamiętanym za to, jak wiele zdołałeś wnieść do świata; a nie za ile pieniędzy miałeś, kiedy umarłeś 😉

              Staraj się nie zostać człowiekiem sukcesu, ale człowiekiem odważnym, Albercie Einseinie.


          3.    Odwaga powiedział

            Czy żebrak mieszkający pod mostem może to zrobić, nie mając ani grosza?

            Więc nie

          4.    Odwaga powiedział

            *mieć

          5.    pandev92 powiedział

            Odwaga, miałem swoją erę reggaetonu i już nie, to było lata temu, słucham tylko japońskiej muzyki i muzyki klasycznej, a za pieniądze… pracujemy nad tym :)

          6.    pandev92 powiedział

            Nie obchodzi mnie, żebym zapamiętał, gara, kiedy umrę, umrę i będę pieprzył innych, bo nawet nie będę mógł wiedzieć, co o mnie myślą. O czym warto pamiętać, ale można być z tego dumnym xD.

    3.    hypersayan_x powiedział

      Aby pobrać określony typ plików, możesz użyć filtrów:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      I wskazówka, jeśli zamierzasz sklonować bardzo dużą stronę, zaleca się zrobienie tego przez proxy, takie jak tor, ponieważ w przeciwnym razie niektóre strony osiągnęły określoną liczbę żądań z rzędu, blokując Twój adres IP na kilka godzin lub dni .
      Innym razem zdarzyło mi się to, gdy chciałem sklonować wiki.

    4.    mdir powiedział

      Rozszerzenie, którego używam w Firefoksie, pobiera tylko obrazy; nazywa się „Zapisz obrazy 0.94”

  2.   Pardo powiedział

    eh pytanie hehe gdzie są zapisane pliki, które pobieram? Będą chcieli mnie zabić, prawda? lol

    1.    KZKG ^ Gaara powiedział

      Pliki są pobierane do folderu, w którym się znajdujesz w terminalu podczas wykonywania wget 😉

  3.   auroszx powiedział

    Ach, nie wyobrażałem sobie, że wget może mieć tak interesujące zastosowanie ... A jeśli chodzi o użycie, o którym wspomina Courage ... Żadnych słów 😉

  4.   Carlos-Xfce powiedział

    Czy ktoś wie, czy istnieje wtyczka WordPress, która uniemożliwia Wgetowi pobranie Twojego bloga?

  5.   darze powiedział

    Cóż, to dla mnie świetne !! Dziękuję Ci

  6.   piolawski powiedział

    Bardzo dobrze, spróbujmy zobaczyć jak, dzięki za wkład.

  7.   lyairmg powiedział

    Chociaż uważam się za początkującego, jest to dla mnie łatwe, teraz spróbuję połączyć to z innymi rzeczami i zobaczyć, co daje….

  8.   Oswaldo powiedział

    Mam nadzieję, że możesz mi pomóc, ponieważ jest to poniedziałek, 3 grudnia 2012 r

    Projekt do opracowania jest następujący:

    Przeniesienie strony internetowej poprzez dostosowanie odnośników href.
    1. - Biorąc pod uwagę witrynę sieci Web, pobierz całą witrynę do katalogu lokalnego za pomocą polecenia wget. I za pomocą skryptu swojego autorstwa wykonaj następujące operacje:

    1.1.-Utwórz niezależny katalog dla każdego rodzaju treści: obrazy gif, obrazy jpeg itp., Wideo avi, wideo mpg itp., Audio mp3, audio wav itp., Treści internetowe (HTML, javascript itp.).

    1.2.-Po przeniesieniu każdej z tych treści przeprowadź dostosowanie odniesień do lokalnych lokalizacji każdego zasobu na stronie.

    1.3.-Aktywuj serwer sieci Web i skonfiguruj katalog główny, w którym znajduje się kopia zapasowa witryny sieci Web, jako katalog główny lokalnego serwera sieci Web.

    1.4.-Uwaga: polecenie wget może być używane tylko z następującymi opcjami:
    –Rekursywne
    –Domains
    –Wymagania dotyczące strony
    Jeśli z jakiegoś powodu potrzeba więcej poleceń, użyj niezbędnych.

    1.    KZKG ^ Gaara powiedział

      Aby pobrać tutaj myślę, że masz rozwiązanie w poście, teraz ... aby przenieść pliki i podmienić ścieżki, musiałem jakiś czas temu zrobić coś takiego w mojej pracy, zostawiam Ci skrypt, którego użyłem: http://paste.desdelinux.net/4670

      Modyfikujesz go, biorąc pod uwagę typ pliku i ścieżkę, czyli sposób, w jaki składa się plik .HTML Twojej witryny i tak dalej.

      Nie jest to rozwiązanie w 100% bo trzeba dokonać pewnych ustaleń czy zmian, ale gwarantuję, że to 70 lub 80% całej pracy 😉

      1.    Oswaldo powiedział

        Dzięki, KZKG ^ Gaara bardzo mi pomogło

  9.   dług powiedział

    Zawsze używałem httrack. Notatnik dla Firefoksa Mam zamiar go wypróbować, ale uwielbiam wget. Dziękuję Ci!

  10.   Daniel PZ powiedział

    Człowieku, polecenie nie działa dla mnie ... ten działał dobrze dla mnie:

    wget –random-wait -r -p -e robots = off -U mozilla http://www.example.com

    1.    Daniel powiedział

      Wielkie dzięki! Użyłem go z parametrami zaproponowanymi przez Daniela PZ i nie miałem żadnych problemów 🙂

  11.   Ruben Almaguer powiedział

    Dzięki, chłopcze, zrobiłem to z WGet na moim szczeniaku z Linuksa, ale nie wiedziałem, jak to zrobić w terminalu. pozdrowienie

  12.   tłok powiedział

    gdzie trzymasz strony?

    1.    siekiera powiedział

      Gdzie masz otwarty terminal. Najpierw w folderze głównym użytkownika, chyba że wskażesz inną ścieżkę.

  13.   fernando powiedział

    Pobrać także linki? Jeśli więc jest łącze do pliku PDF lub innego dokumentu, czy Ty też go pobierasz?

  14.   rzeka powiedział

    Co mogę zrobić, aby pobrać całego bloga, próbowałem i to, czego nie widzę, wydaje się być w kodach lub jest zablokowane, mimo że pobieranie trwało wiele godzin, ale można odczytać tylko początkową stronę, którą polecam pobrać mój blog, dzięki raul.

  15.   Lew powiedział

    witam, wątpię, czy można zamienić linki w html, aby później móc przeglądać pobraną stronę tak, jakby była oryginalna.

    Dzieje się tak, że pobieram stronę i otwierając ją z pobranych plików nie korzystam z plików .css ani .js, a linki na stronie prowadzą mnie do strony w Internecie.