Forum: PC-Programmierung Website download wget bzw. curl


von Frage (Gast)


Lesenswert?

Hallo,
wenn ich mit meinem Webbrowser Firefox eine Website anzeige, so schickt 
ja mein PC eine Anfrage an die Internetseite und ich erhalte vom Server 
der Internetseite eine Antwort und demzufolge wird ja dann im Browser 
die Website angezeigt.
Gehe ich in Firefox auf Website speichern, so wird der Quelltext der 
Website komplett gespeichert.
Gebe ich in Linux wget bzw. curl die Website an, so erhalte ich anstelle 
von 5Mb nur 2 MB Inhalt und wichtige Daten fehlen.
An was liegt das und wie würde der Befehl für wget bzw. curl passen?

von DerEinzigeBernd (Gast)


Lesenswert?

Frage schrieb:
> An was liegt das

Die "Webseite" besteht aus zig Dateien, die der Browser alle 
herunterlädt, nachdem er das Hauptdokument geladen hat.

curl bzw. wget laden nur das Hauptdokument, aber da sie es nicht 
analysieren, den ganzen darin referenzierten Krempel nicht.

Ruf mal in Firefox den Menüpunkt

Extras->Browser-Werkzeuge->Werkzeuge für Webentwickler

auf

und wähle dann den Punkt "Netzwerkanalyse". Dann lade Deine angezeigte 
Webseite neu.

von gustuf (Gast)


Lesenswert?

Wenn es darum geht, Webseiten automatisiert abzuspeichern, empfehle ich 
dir python, z.B. mit https://scrapy.org/

von Manfred (Gast)


Lesenswert?

DerEinzigeBernd schrieb:
> curl bzw. wget laden nur das Hauptdokument,

Nee, wget kann alles holen, wenn man es passend aufruft.

Da muß wohl mal jemand die Doku durcharbeiten, etwa 110 kbyte 
ASCII-Text.

Ich denke da an die Ecke:

Recursive Retrieval Options
===========================
`--recursive'
`-l DEPTH'

von DerEinzigeBernd (Gast)


Lesenswert?

Manfred schrieb:

> Nee, wget kann alles holen, wenn man es passend aufruft.

Das holt auch den ganzen per Javascript dynamisch eingebundenen Krempel? 
Vor zehn, fünfzehn Jahren hätte der "recurse"-Ansatz gereicht, aber 
heute ist ja jeder Scheiß "responsive" …

von Frage (Gast)


Lesenswert?

Gute Frage. Gibt es da unter Linux eventuell ein Programm mit dem der 
Download funktioniert?

von gustuf (Gast)


Lesenswert?

Frage schrieb:
> Gute Frage. Gibt es da unter Linux eventuell ein Programm mit dem der
> Download funktioniert?

Was genau hast du denn vor?

von Kolja L. (kolja82)


Lesenswert?

httrack

von frage (Gast)


Lesenswert?

Und in der Konsole?

von Kiffer (Gast)


Lesenswert?

DerEinzigeBernd schrieb:
> Das holt auch den ganzen per Javascript dynamisch eingebundenen Krempel?

"Wget -r -l1 [-x] [-np] <url>" geht auch heute noch sehr gut. Was meinst 
Du mit "dynamisch eingebunden" bzw. "responsive"? Auch die laden ihr JS 
ja üblicherweise über <script>-Tags die wget proböeml8s zugänglich sind.

von DerEgon (Gast)


Lesenswert?

Kiffer schrieb:
> Auch die laden ihr JS
> ja üblicherweise über <script>-Tags die wget proböeml8s zugänglich sind.

Bernd dürfte den Kram meinen, der durch den javascript-Code geladen 
wird. Der ergibt sich eben nicht aus den script-Tags in irgendeiner 
HTML-Datei.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.