mikrocontroller.net

Forum: www.mikrocontroller.net Forum Thread automatisierter download (mit Anhang) per wget


Autor: Base64 U. (6964fcd710b8d77)
Datum:

Bewertung
3 lesenswert
nicht lesenswert
Wie man oft spürt, ist das Internet ein recht flüchtiges Medium. 
Präsentationen die ich für meine erste Bachelorarbeit verwendet hab 
waren bei meiner zweiten, ein paar Monate später nicht mehr verfügbar. 
Seiten ziehen um, Autoren löschen Posts und hier und da verschwindet 
etwas wegen einem DMCA Verstoß oder Anwahltsbrief.


Persönlich hat man natürlich ein gewisses interesse manche Infos, Seiten 
und Threads auf längere Sicht auf zu heben. Deshalb würde ich mir gerne 
ein paar selektierte Threads (mit Anhängen) aus dem Forum hier 
automatisiert downloaden.

Traffic und Serverauslasung sollte in keinem nennenswert störenden 
Ausmaß auftreten. (angenommen ich spiegel einmal am Tag/in der Woche)

Momentan versuch ich das ganze per wget zu lösen.
Bilder (später auch andere Anhänge) in Originalgröße:
wget -r -nd -H -p -A jpg,jpeg -e robots=off --wait=1 --random-wait --domains=www.mikrocontroller.net url_zum_thread

Thread als html:
wget -m -r -nd -p -k -e robots=off --wait=1 --random-wait --html-extension --domains=www.mikrocontroller.net/topic url_zum_thread

Leider hab ich dann immer noch die Bilder(originalgröße) und Text 
separat. Ich hätt das gerne als ein Paket.
Paging sollte ich mit einem eigenen Account ausschalten können (eigenen 
Account zum spiegel anlegen und für den in den Einstellungen das paging 
ausschalten).

Vielleicht hat schon jemand etwas in die Richtung realisiert ? :)

Autor: Base64 U. (6964fcd710b8d77)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
rate limiting wird noch besser getestet und an robots.txt halte ich mich 
solange es geht (hatte nur bei den Bildern teils Probleme)

Autor: Base64 U. (6964fcd710b8d77)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Bin momentan bei folgendem Bash Script angekommen;
URL=https://www.mikrocontroller.net/topic/...

# accepted attachment types
ATTACHMENTTYPE=jpg,JPG,jpeg,JPEG,png,PNG,svg,SVG,TIF,gif,GIF,bmp,BMP
ATTACHMENTTYPE+=,elf,ELF,hex,HEX,bin,BIN,tar,TAR,zip,ZIP,sch,brd,pdf,PDF
ATTACHMENTTYPE+=,asm,ASM,c,h,cpp,v,vhd,py,sh,bat,ino,txt,log
ATTACHMENTTYPE+=,xls,xlsx

# download page
wget -m -E -H -k -K -nd -p -P download --wait=1 --random-wait --html-extension --domains=www.mikrocontroller.net/topic $URL

# download attachments
wget -r -nd -P attachments -A $ATTACHMENTTYPE -e robots=off --wait=1 --random-wait --domains=www.mikrocontroller.net $URL

* lädt leider alles runter und checkt dann gegen eine whitelist

Autor: Mark B. (markbrandis)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Vor langer Zeit hatte Andreas Schwarz mal eine Kopie des Foreninhalts 
bereitgestellt. Siehe diesen Thread:

Beitrag "alle Beiträge zum Downloaden?"

Frag ihn doch mal per Mail, ob er so etwas wieder bereitstellen würde?

Autor: Andreas S. (andreas) (Admin) Benutzerseite Flattr this
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Es gibt noch eine einfachere Alternative:
https://web.archive.org/web/www.mikrocontroller.net/topic/123456
-> "Save this url in the Wayback Machine" klicken, wenn noch nicht 
vorhanden.

: Bearbeitet durch Admin
Autor: Base64 U. (6964fcd710b8d77)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Andreas S. schrieb:
> Es gibt noch eine einfachere Alternative:
> https://web.archive.org/web/www.mikrocontroller.net/topic/123456
> -> "Save this url in the Wayback Machine" klicken, wenn noch nicht
> vorhanden.

Leider stößt das gegen folgendes Problem:

Base64 U. schrieb:
> Autoren löschen Posts und hier und da verschwindet
> etwas wegen einem DMCA Verstoß oder Anwahltsbrief.

Archive.org löscht auf Anfrage von Seitenbesitzer auch Inhalte, bzw. 
löscht (oder macht diese zumindest nicht mehr öffentlich zugänglich) auf 
DMCA requests.

Ich nutze Archive.org selber auch, aber damit hat wieder eine externe 
Partei Kontroller über mein Backup. Deshalb hab ich den Weg leider 
ausgeschlossen für mich.

Das soll keine Kritik an den Admins/Mods von Mikrocontroller.net sein, 
aber für meinen Zweck passt das leider nicht :)

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.