Forum: www.mikrocontroller.net Forum Thread automatisierter download (mit Anhang) per wget


von Base64 U. (6964fcd710b8d77)


Lesenswert?

Wie man oft spürt, ist das Internet ein recht flüchtiges Medium. 
Präsentationen die ich für meine erste Bachelorarbeit verwendet hab 
waren bei meiner zweiten, ein paar Monate später nicht mehr verfügbar. 
Seiten ziehen um, Autoren löschen Posts und hier und da verschwindet 
etwas wegen einem DMCA Verstoß oder Anwahltsbrief.


Persönlich hat man natürlich ein gewisses interesse manche Infos, Seiten 
und Threads auf längere Sicht auf zu heben. Deshalb würde ich mir gerne 
ein paar selektierte Threads (mit Anhängen) aus dem Forum hier 
automatisiert downloaden.

Traffic und Serverauslasung sollte in keinem nennenswert störenden 
Ausmaß auftreten. (angenommen ich spiegel einmal am Tag/in der Woche)

Momentan versuch ich das ganze per wget zu lösen.
Bilder (später auch andere Anhänge) in Originalgröße:
1
wget -r -nd -H -p -A jpg,jpeg -e robots=off --wait=1 --random-wait --domains=www.mikrocontroller.net url_zum_thread

Thread als html:
1
wget -m -r -nd -p -k -e robots=off --wait=1 --random-wait --html-extension --domains=www.mikrocontroller.net/topic url_zum_thread

Leider hab ich dann immer noch die Bilder(originalgröße) und Text 
separat. Ich hätt das gerne als ein Paket.
Paging sollte ich mit einem eigenen Account ausschalten können (eigenen 
Account zum spiegel anlegen und für den in den Einstellungen das paging 
ausschalten).

Vielleicht hat schon jemand etwas in die Richtung realisiert ? :)

von Base64 U. (6964fcd710b8d77)


Lesenswert?

rate limiting wird noch besser getestet und an robots.txt halte ich mich 
solange es geht (hatte nur bei den Bildern teils Probleme)

von Base64 U. (6964fcd710b8d77)


Lesenswert?

Bin momentan bei folgendem Bash Script angekommen;
1
URL=https://www.mikrocontroller.net/topic/...
2
3
# accepted attachment types
4
ATTACHMENTTYPE=jpg,JPG,jpeg,JPEG,png,PNG,svg,SVG,TIF,gif,GIF,bmp,BMP
5
ATTACHMENTTYPE+=,elf,ELF,hex,HEX,bin,BIN,tar,TAR,zip,ZIP,sch,brd,pdf,PDF
6
ATTACHMENTTYPE+=,asm,ASM,c,h,cpp,v,vhd,py,sh,bat,ino,txt,log
7
ATTACHMENTTYPE+=,xls,xlsx
8
9
# download page
10
wget -m -E -H -k -K -nd -p -P download --wait=1 --random-wait --html-extension --domains=www.mikrocontroller.net/topic $URL
11
12
# download attachments
13
wget -r -nd -P attachments -A $ATTACHMENTTYPE -e robots=off --wait=1 --random-wait --domains=www.mikrocontroller.net $URL

* lädt leider alles runter und checkt dann gegen eine whitelist

von Mark B. (markbrandis)


Lesenswert?

Vor langer Zeit hatte Andreas Schwarz mal eine Kopie des Foreninhalts 
bereitgestellt. Siehe diesen Thread:

Beitrag "alle Beiträge zum Downloaden?"

Frag ihn doch mal per Mail, ob er so etwas wieder bereitstellen würde?

von Andreas S. (andreas) (Admin) Benutzerseite


Lesenswert?

Es gibt noch eine einfachere Alternative:
https://web.archive.org/web/www.mikrocontroller.net/topic/123456
-> "Save this url in the Wayback Machine" klicken, wenn noch nicht 
vorhanden.

: Bearbeitet durch Admin
von Base64 U. (6964fcd710b8d77)


Lesenswert?

Andreas S. schrieb:
> Es gibt noch eine einfachere Alternative:
> https://web.archive.org/web/www.mikrocontroller.net/topic/123456
> -> "Save this url in the Wayback Machine" klicken, wenn noch nicht
> vorhanden.

Leider stößt das gegen folgendes Problem:

Base64 U. schrieb:
> Autoren löschen Posts und hier und da verschwindet
> etwas wegen einem DMCA Verstoß oder Anwahltsbrief.

Archive.org löscht auf Anfrage von Seitenbesitzer auch Inhalte, bzw. 
löscht (oder macht diese zumindest nicht mehr öffentlich zugänglich) auf 
DMCA requests.

Ich nutze Archive.org selber auch, aber damit hat wieder eine externe 
Partei Kontroller über mein Backup. Deshalb hab ich den Weg leider 
ausgeschlossen für mich.

Das soll keine Kritik an den Admins/Mods von Mikrocontroller.net sein, 
aber für meinen Zweck passt das leider nicht :)

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.