Forum: PC-Programmierung Website download wget bzw. curl

von Frage (Gast)

21.09.2022 21:35

Lesenswert?

•

Hallo,
wenn ich mit meinem Webbrowser Firefox eine Website anzeige, so schickt 
ja mein PC eine Anfrage an die Internetseite und ich erhalte vom Server 
der Internetseite eine Antwort und demzufolge wird ja dann im Browser 
die Website angezeigt.
Gehe ich in Firefox auf Website speichern, so wird der Quelltext der 
Website komplett gespeichert.
Gebe ich in Linux wget bzw. curl die Website an, so erhalte ich anstelle 
von 5Mb nur 2 MB Inhalt und wichtige Daten fehlen.
An was liegt das und wie würde der Befehl für wget bzw. curl passen?

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Website download wget bzw. curl

von DerEinzigeBernd (Gast)

21.09.2022 22:24

Lesenswert?

•

▲
▼

Frage schrieb:
> An was liegt das

Die "Webseite" besteht aus zig Dateien, die der Browser alle 
herunterlädt, nachdem er das Hauptdokument geladen hat.

curl bzw. wget laden nur das Hauptdokument, aber da sie es nicht 
analysieren, den ganzen darin referenzierten Krempel nicht.

Ruf mal in Firefox den Menüpunkt

Extras->Browser-Werkzeuge->Werkzeuge für Webentwickler

auf

und wähle dann den Punkt "Netzwerkanalyse". Dann lade Deine angezeigte 
Webseite neu.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Website download wget bzw. curl

von gustuf (Gast)

21.09.2022 22:38

Lesenswert?

•

▲
▼

Wenn es darum geht, Webseiten automatisiert abzuspeichern, empfehle ich 
dir python, z.B. mit https://scrapy.org/

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Website download wget bzw. curl

von Manfred (Gast)

21.09.2022 22:41

Lesenswert?

•

▲
▼

DerEinzigeBernd schrieb:
> curl bzw. wget laden nur das Hauptdokument,

Nee, wget kann alles holen, wenn man es passend aufruft.

Da muß wohl mal jemand die Doku durcharbeiten, etwa 110 kbyte 
ASCII-Text.

Ich denke da an die Ecke:

Recursive Retrieval Options
===========================
`--recursive'
`-l DEPTH'

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Website download wget bzw. curl

von DerEinzigeBernd (Gast)

21.09.2022 22:47

Lesenswert?

•

▲
▼

Manfred schrieb:

> Nee, wget kann alles holen, wenn man es passend aufruft.

Das holt auch den ganzen per Javascript dynamisch eingebundenen Krempel? 
Vor zehn, fünfzehn Jahren hätte der "recurse"-Ansatz gereicht, aber 
heute ist ja jeder Scheiß "responsive" …

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Website download wget bzw. curl

von Frage (Gast)

21.09.2022 23:19

Lesenswert?

•

▲
▼

Gute Frage. Gibt es da unter Linux eventuell ein Programm mit dem der 
Download funktioniert?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Website download wget bzw. curl

von gustuf (Gast)

21.09.2022 23:22

Lesenswert?

•

▲
▼

Frage schrieb:
> Gute Frage. Gibt es da unter Linux eventuell ein Programm mit dem der
> Download funktioniert?

Was genau hast du denn vor?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Website download wget bzw. curl

von Kolja L. (kolja82)

21.09.2022 23:23

Lesenswert?

•

▲
▼

httrack

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Website download wget bzw. curl

von frage (Gast)

22.09.2022 00:15

Lesenswert?

•

▲
▼

Und in der Konsole?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Website download wget bzw. curl

von Kiffer (Gast)

22.09.2022 04:03

Lesenswert?

•

▲
▼

DerEinzigeBernd schrieb:
> Das holt auch den ganzen per Javascript dynamisch eingebundenen Krempel?

"Wget -r -l1 [-x] [-np] <url>" geht auch heute noch sehr gut. Was meinst 
Du mit "dynamisch eingebunden" bzw. "responsive"? Auch die laden ihr JS 
ja üblicherweise über <script>-Tags die wget proböeml8s zugänglich sind.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Website download wget bzw. curl

von DerEgon (Gast)

22.09.2022 09:50

Lesenswert?

•

▲
▼

Kiffer schrieb:
> Auch die laden ihr JS
> ja üblicherweise über <script>-Tags die wget proböeml8s zugänglich sind.

Bernd dürfte den Kram meinen, der durch den javascript-Code geladen 
wird. Der ergibt sich eben nicht aus den script-Tags in irgendeiner 
HTML-Datei.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net