Hallo, wenn ich mit meinem Webbrowser Firefox eine Website anzeige, so schickt ja mein PC eine Anfrage an die Internetseite und ich erhalte vom Server der Internetseite eine Antwort und demzufolge wird ja dann im Browser die Website angezeigt. Gehe ich in Firefox auf Website speichern, so wird der Quelltext der Website komplett gespeichert. Gebe ich in Linux wget bzw. curl die Website an, so erhalte ich anstelle von 5Mb nur 2 MB Inhalt und wichtige Daten fehlen. An was liegt das und wie würde der Befehl für wget bzw. curl passen?
Frage schrieb: > An was liegt das Die "Webseite" besteht aus zig Dateien, die der Browser alle herunterlädt, nachdem er das Hauptdokument geladen hat. curl bzw. wget laden nur das Hauptdokument, aber da sie es nicht analysieren, den ganzen darin referenzierten Krempel nicht. Ruf mal in Firefox den Menüpunkt Extras->Browser-Werkzeuge->Werkzeuge für Webentwickler auf und wähle dann den Punkt "Netzwerkanalyse". Dann lade Deine angezeigte Webseite neu.
Wenn es darum geht, Webseiten automatisiert abzuspeichern, empfehle ich dir python, z.B. mit https://scrapy.org/
DerEinzigeBernd schrieb: > curl bzw. wget laden nur das Hauptdokument, Nee, wget kann alles holen, wenn man es passend aufruft. Da muß wohl mal jemand die Doku durcharbeiten, etwa 110 kbyte ASCII-Text. Ich denke da an die Ecke: Recursive Retrieval Options =========================== `--recursive' `-l DEPTH'
Manfred schrieb: > Nee, wget kann alles holen, wenn man es passend aufruft. Das holt auch den ganzen per Javascript dynamisch eingebundenen Krempel? Vor zehn, fünfzehn Jahren hätte der "recurse"-Ansatz gereicht, aber heute ist ja jeder Scheiß "responsive" …
Gute Frage. Gibt es da unter Linux eventuell ein Programm mit dem der Download funktioniert?
Frage schrieb: > Gute Frage. Gibt es da unter Linux eventuell ein Programm mit dem der > Download funktioniert? Was genau hast du denn vor?
DerEinzigeBernd schrieb: > Das holt auch den ganzen per Javascript dynamisch eingebundenen Krempel? "Wget -r -l1 [-x] [-np] <url>" geht auch heute noch sehr gut. Was meinst Du mit "dynamisch eingebunden" bzw. "responsive"? Auch die laden ihr JS ja üblicherweise über <script>-Tags die wget proböeml8s zugänglich sind.
Kiffer schrieb: > Auch die laden ihr JS > ja üblicherweise über <script>-Tags die wget proböeml8s zugänglich sind. Bernd dürfte den Kram meinen, der durch den javascript-Code geladen wird. Der ergibt sich eben nicht aus den script-Tags in irgendeiner HTML-Datei.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.