Mit dem Terminal: Laden Sie eine komplette Website mit Wget herunter

Nichts besseres als Wikipedia um zu erklären, woraus dieses Tool besteht:

GNU Wget ist ein kostenloses Software-Tool, mit dem Inhalte auf einfache Weise von Webservern heruntergeladen werden können. Sein Name leitet sich vom World Wide Web (w) ab und von "get" (auf Englisch get) bedeutet dies: get from the WWW.

Derzeit werden Downloads mit den Protokollen HTTP, HTTPS und FTP unterstützt.

Zu den herausragendsten Funktionen, die es bietet wget Es besteht die Möglichkeit des einfachen rekursiven Herunterladens komplexer Spiegel, der Konvertierung von Links zur lokalen Anzeige von HTML-Inhalten, der Unterstützung von Proxys ...

Es ist wahr, dass es andere Anwendungen gibt, die uns helfen, diese Art von Arbeit auszuführen, wie z httrack oder sogar Erweiterungen für Firefox als Scrapbook, aber nichts wie die Einfachheit eines Terminals 😀

Magie machen

Ich war neugierig auf den Film: The Social Network, als der Charakter von Mark Zuckerberg Verwenden Sie den Satz: «Ein bisschen Magie wget«, Als ich die Fotos für Facemash herunterladen wollte 😀 und es ist wahr, wget ermöglicht es Ihnen, mit den entsprechenden Parametern zu zaubern.

Schauen wir uns einige Beispiele an und beginnen wir mit der einfachen Verwendung des Tools.

So gehen Sie eine Seite runter:

$ wget https://blog.desdelinux.net/con-el-terminal-bajar-un-sitio-web-completo-con-wget

So laden Sie die gesamte Site rekursiv herunter, einschließlich Bilder und anderer Datentypen:

$ wget -r https://blog.desdelinux.net/

Und hier kommt die Magie. Wie sie uns im Artikel von erklären MenschenViele Websites überprüfen die Identität des Browsers, um verschiedene Einschränkungen anzuwenden. Mit wget Wir können dies folgendermaßen umgehen:

wget  -r -p -U Mozilla https://blog.desdelinux.net/

Oder wir können auch zwischen den einzelnen Seiten pausieren, da der Websitebesitzer sonst möglicherweise feststellt, dass wir die Website vollständig mit herunterladen wget.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://blog.desdelinux.net/


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: Miguel Ángel Gatón
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.

  1.   pandev92 sagte

    Gibt es etwas zum Herunterladen nur der Bilder xd?

    1.    Mut sagte

      http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=vicio

      Dass ich gerade deine Gedanken gelesen habe hahahaha

      1.    pandev92 sagte

        lol oo xd

    2.    KZKG ^ Gaara sagte

      Mann wget 😉

      1.    pandev92 sagte

        Das Leben ist zu kurz, um mans zu lesen.

        1.    KZKG ^ Gaara sagte

          Das Leben ist zu kurz, um das Gehirn mit Informationen zu füllen, aber es ist immer noch gültig, es zu versuchen 🙂

          1.    pandev92 sagte

            Informationen sind die Hälfte wert, ich fülle sie lieber mit Frauen, Spielen und Geld, wenn möglich XD.

          2.    Mut sagte

            Du denkst immer verdammt an Frauen. Von nun an hören Sie Dadee Yankee, Don Omar und Wisin Y Yandel wie KZKG ^ Gaara.

            Widme dich besser dem Geld, was das Wichtigste in diesem Leben ist

            1.    KZKG ^ Gaara sagte

              Es gibt Dinge, die viel mehr wert sind als Geld ... zum Beispiel in der Geschichte zu sein, etwas zu verändern, sich daran zu erinnern, wie viel Sie zur Welt beigetragen haben; und nicht für wie viel Geld hatten Sie, als Sie starben 😉

              Versuche nicht ein Mann des Erfolgs zu werden, sondern ein Mann des Mutes, Albert Einsein.


          3.    Mut sagte

            Und kann ein Bettler, der unter einer Brücke lebt, das tun, ohne einen Cent zu haben?

            Nun, nein

          4.    Mut sagte

            *haben

          5.    pandev92 sagte

            Mut, ich hatte meine Reggaeton-Ära und nun, nicht mehr, das war vor Jahren, ich höre nur japanische Musik und klassische Musik, und mit dem Geld ... arbeiten wir daran :).

          6.    pandev92 sagte

            Es ist mir egal, an Gara erinnert zu werden, wenn ich gestorben sein werde, werde ich gestorben sein und die anderen verarschen, da ich nicht einmal wissen kann, was sie von mir halten. Was ist es wert, erinnert zu werden, aber Sie können stolz darauf sein xD.

    3.    hypersayan_x sagte

      Um einen bestimmten Dateityp herunterzuladen, können Sie Filter verwenden:

      https://www.gnu.org/software/wget/manual/html_node/Types-of-Files.html

      Und ein Tipp: Wenn Sie eine sehr große Seite klonen möchten, wird empfohlen, dies über einen Proxy wie tor zu tun, da ansonsten bestimmte Seiten eine bestimmte Anzahl aufeinanderfolgender Anforderungen erreicht haben und Ihre IP für mehrere Stunden oder Tage blockieren .
      Das andere Mal passierte mir, als ich ein Wiki klonen wollte.

    4.    mdir sagte

      Eine Erweiterung, die ich in Firefox verwende, lädt nur Bilder herunter. es heißt "Save Images 0.94"

  2.   Braun sagte

    eh eine frage hehe wo werden die dateien gespeichert die ich heruntergeladen habe? Sie werden mich töten wollen, richtig? LOL

    1.    KZKG ^ Gaara sagte

      Die Dateien werden in den Ordner heruntergeladen, in dem Sie sich zum Zeitpunkt der Ausführung von wget 😉 im Terminal befinden

  3.   auroszx sagte

    Ahh, ich hätte mir nicht vorgestellt, dass wget einen so interessanten Nutzen haben könnte ... Nun zu dem Gebrauch, den Courage erwähnt ... Keine Worte 😉

  4.   Carlos-Xfce sagte

    Weiß jemand, ob es ein WordPress-Plug-In gibt, das verhindert, dass Wget Ihr Blog herunterlädt?

  5.   Darzee sagte

    Nun, es ist großartig für mich !! Vielen Dank

  6.   Piolavski sagte

    Sehr gut, versuchen wir mal zu sehen, danke für den Beitrag.

  7.   lairmg sagte

    Obwohl ich mich als Anfänger betrachte, fällt mir das jetzt leicht. Ich werde versuchen, es mit anderen Dingen zu mischen und zu sehen, was es gibt.

  8.   Oswaldo sagte

    Ich hoffe, Sie können mir helfen, denn es ist für Montag, den 3. Dezember 2012

    Das zu entwickelnde Projekt ist das folgende:

    Umzug einer Website durch Anpassung der href-Referenzen.
    1. Laden Sie unter Berücksichtigung einer Website die gesamte Site mit dem Befehl wget in ein lokales Verzeichnis herunter. Führen Sie mithilfe eines Skripts Ihrer Urheberschaft die folgenden Vorgänge aus:

    1.1.-Erstellen Sie ein unabhängiges Verzeichnis für jeden Inhaltstyp: GIF-Bilder, JPEG-Bilder usw., AVI-Videos, MPG-Videos usw., MP3-Audio, WAV-Audio usw., Webinhalte (HTML, Javascript usw.).

    1.2.-Nachdem jeder dieser Inhalte verschoben wurde, nehmen Sie die Anpassung der Verweise auf die lokalen Speicherorte jeder Ressource auf der Site vor.

    1.3.-Aktivieren Sie einen Webserver und konfigurieren Sie das Stammverzeichnis, in dem sich die Website-Sicherung befindet, als Stammverzeichnis des lokalen Webservers.

    1.4.-Hinweis: Der Befehl wget kann nur mit den folgenden Optionen verwendet werden:
    –Recursive
    –Domains
    –Seitenanforderungen
    Wenn aus irgendeinem Grund mehr Befehle erforderlich sind, verwenden Sie die erforderlichen.

    1.    KZKG ^ Gaara sagte

      Zum Herunterladen hier denke ich, dass Sie die Lösung in der Post haben, jetzt ... um Dateien zu verschieben und die Pfade zu ersetzen, musste ich vor einiger Zeit in meiner Arbeit so etwas tun, ich überlasse Ihnen das Skript, das ich verwendet habe: http://paste.desdelinux.net/4670

      Sie ändern es unter Berücksichtigung des Dateityps und des Pfads, dh wie die HTML-Dateien Ihrer Site zusammengesetzt sind.

      Dies ist nicht die 100% ige Lösung, da Sie einige Vorkehrungen oder Änderungen treffen müssen, aber ich garantiere, dass es 70 oder 80% der gesamten Arbeit sind 😉

      1.    Oswaldo sagte

        Danke KZKG ^ Gaara hat mir sehr geholfen

  9.   Schulden sagte

    Ich habe immer httrack verwendet. Sammelalbum für Firefox Ich werde es versuchen, aber ich liebe wget. Vielen Dank!

  10.   Daniel PZ sagte

    Mann, der Befehl hat bei mir nicht funktioniert ... dieser hat bei mir gut funktioniert:

    wget –random-wait -r -p -e robots = off -U Mozilla http://www.example.com

    1.    Matthias sagte

      Vielen Dank! Ich habe es mit den von Daniel PZ vorgeschlagenen Parametern verwendet und hatte keine Probleme 🙂

  11.   Ruben Almaguer sagte

    Danke Junge, ich habe das mit WGet auf meinem Linux-Welpen gemacht, aber ich wusste nicht, wie ich es im Terminal machen soll. ein Gruß

  12.   Kolben sagte

    Wo bewahren Sie die Seiten auf?

    1.    Hache sagte

      Wo Sie das Terminal geöffnet haben. Zunächst in Ihrem Benutzerstammordner, sofern Sie keinen anderen Pfad angeben.

  13.   fernando sagte

    Laden Sie auch die Links herunter? Wenn es also einen Link zu einem PDF oder einem anderen Dokument gibt, laden Sie ihn auch herunter?

  14.   Fluss sagte

    Was kann ich tun, um mein gesamtes Blog herunterzuladen? Ich habe es versucht und was ich nicht sehen kann, scheint in Codes oder blockiert zu sein, obwohl das Herunterladen viele Stunden dauert, aber nur die erste Seite kann gelesen werden, die ich zum Herunterladen empfehle mein blog, danke raul.

  15.   Löwe sagte

    Hallo, im Zweifel ist es möglich, die Links innerhalb des HTML-Codes zu ersetzen, um später die heruntergeladene Seite durchsuchen zu können, als wäre es das Original.

    Was passiert ist, dass ich die Seite herunterlade und als ich sie aus den heruntergeladenen Dateien öffnete, habe ich nicht die .css oder .js genommen und die Links auf der Seite führen mich zu der Seite im Internet.