Forum: PC-Programmierung Webseite vor Massendownload schützen


von J. S. (engineer) Benutzerseite


Lesenswert?

Wie bekomme Ich es einfach und ohne großen Aufwand hin, komplette 
Downloads meiner Seite zu unterbinden? Ich würde gerne Passworte oder 
Ähnliches vermeiden, weil die Besucher durchaus alles sehen sollen. Das 
was sie nicht sehen sollen, ist auch nicht hochgeladen :-)

Die Besucher sollen auf der Seite durchaus navigieren und überall 
hinkommen aber das tun offenbar die Wenigsten, was man aus der 
Einsprung- und Ausgangsstatistik sehen kann. Dafür steigt die Zahl der 
direkten downloads stetig an und immer öfter saugt ein einziger Rechner 
binnen weniger Minuten gleich 50MB und mehr herunter. Kaum anzunehmen, 
dass er alle gelisteten Seiten gelesen hat und jemals lesen wird. Es 
scheinen eher Firmen oder Studenten zu sein, die sich Ideen für eigene 
Entwicklungen holen wollen und mal vorsorglich alles runterziehen, was 
es gibt. Grundsätzlich habe Ich da nichts dagegen, denn wie gesagt, sind 
die richtig interessanten und schützenswerten Information ohnehin nicht 
hochgeladen. Mich ärgert aber die Bandbreitenbelegung und das Volumen, 
weil es so langsam an die Grenze kommt.

Momentan behelfe Ich mich damit, weite Teile der Seite abzuhängen und 
sie nur über bestimmte Einsprungseiten, die in google gelistet sind 
verfügbar zu machen. Ein Komplettdownload von der Seite aus, oder dem 
Toplevel findet dann nur rund 1/5 der Seiten. Das führt natürlich dazu, 
dass ein komplettes Navigieren nicht mehr möglich ist.

Das Ganze soll möglichst ohne aufwändige Technologien funktionieren, die 
bei Besuchern dann wieder zu einem Problem führen, weil sie JAVA oder 
irgendwas anderes nicht aktiv haben.

Idee?

von Peter II (Gast)


Lesenswert?

Was steht denn bei den "Download" im UserAgent? Warum sollte so viele 
Leute die seite komplett mit irgendwelchen Programmen herunterladen? Das 
kommt mir doch sehr merkwürdig vor.

Das es ein paar Leute machen kann ja sein, aber so viele das du es 
merkst?

je nachdem wo du zugriff drauf hast, könnte man die Quest pro IP und 
Zeit begrenzen. Aber es gibt auch Browser die "intelligent" die Seite 
vorladen. Auch Jedes Images/CSS/JS wir ja einzeln geladen, das sind dann 
auch schon viele Request.

Da hilft nur eine genau Analyse um Parameter zu finden, wonach man 
filtern kann.

von rmu (Gast)


Lesenswert?

"Normale" Webcrawler sollten eine robots.txt-Datei in der Wurzel der 
Website honorieren.

Ansonsten könnte man Links im HTML durch JavaScript ersetzen, ein 
normaler Webcrawler kann damit auch nichts anfangen.

von S. M. (lichtmensch)


Lesenswert?

Hast du nur Seiten & Bilder oder auch Größere Dateien welche man 
runterladen kann?
Eine Erkennung bei Webseiten wird schwierig. Deswegen lösen viele das 
mit Anmeldepflicht.
Aber 50Mb klingt erst mal nicht viel. Eventuell ist deine Seite auch 
einfach beliebt dann solltest du mal über einen anderen Server 
nachdenken.

von Gerd E. (robberknight)


Lesenswert?

Was ich schon öfters gesehen habe, ist daß auf einem Webserver der 
Referer-Header ausgewertet wird. Der Download wird nur erlaubt, wenn der 
Referer von der richtigen Unterseite auf Deinem Webserver kommt.

Damit kannst Du Deep-Links von woanders unterbinden.

von R. M. (Gast)


Lesenswert?

Gerd E. schrieb:
> Der Download wird nur erlaubt, wenn der
> Referer von der richtigen Unterseite auf Deinem Webserver kommt.

Und genau das passiert, wenn mit wget rekursiv gelesen wird. Dort ist 
auch der Name des useragenten einstellbar.

Bliebe nur über eine Statistik, wie viele Dateien eine Source IP je 
Sekunde geladen hat - würde wohl eine Modifikation des Webservers 
erfordern.

von c.m. (Gast)


Lesenswert?

1. alles was erreichbar ist kann auch downgeloaded werden.
2. robots.txt honorieren nur ehrliche crawler (ICH z.b. nicht)

mit javasript und erheblichem aufwand lässt sich etwas bauen um dateien 
vorm automatisierten download zu schützen, klar. aber das willst du 
wahrscheinlich nicht.
bleibt nur traffic-shaping… quellIP basierte restriktion von 
gleichzeitigen verbindungen und/oder verbindungen pro zeiteinheit.
http://unix.stackexchange.com/questions/139285/limit-max-connections-per-ip-address-and-new-connections-per-second-with-iptable

gleichzeitig kannst du auch noch die bandbreite pro client beschränken - 
aber vorsicht das dabei deine site nicht zäh wird ;)

von /pre (Gast)


Lesenswert?

Jürgen S. schrieb:

96khz.org ?

> direkten downloads stetig an und immer öfter saugt ein einziger Rechner


archive.org/web
Saved 53 times between August 5, 2003 and December 25, 2016.


----



"Archivierte" Seiten rausnehmen,
link auf archive.org setzen ....

von Mac G. (macgyver0815)


Lesenswert?

Bei den meisten modernen Webhostern hat man doch sogar unbegrenzt 
traffic.
Auch bei Deinem sollte das der Fall sein - es sei denn Du hast den Tarif 
nie aktualisiert und nutzt noch einen von vor 10 Jahren oder so ;-)

von oszi40 (Gast)


Lesenswert?

Gerd E. schrieb:
> Damit kannst Du Deep-Links von woanders unterbinden.

Wenn ich mir aber diese Seite wegen einer guten Lösung in die Favoriten 
gespeichert habe, komme ich immer wieder auf direktem Weg auf diese 
Seite und DAS möchtest Du verhindern? Schlecht. Erst mal die Datenmenge 
reduzieren. Es muß nicht jedes Bild 5MB groß sein!

Wenn es immer nur einige bestimmte Seiten betrifft, würde ich eine 
Abfrage einbauen um Mensch und Maschine zu unterscheiden (wenn 
robots.txt nicht hilft). Der Rest stand schon bei Stefan Münz seit 1995. 
https://wiki.selfhtml.org/

von J. S. (engineer) Benutzerseite


Lesenswert?

>Was steht denn bei den "Download" im UserAgent? Warum sollte so viele
>Leute die seite komplett mit irgendwelchen Programmen herunterladen?
keine Ahnung. Es passiert seit einigen Jahren regelmässig steigend 
mehrfach im Monat. Es ist immer jemand anderes, die Webdownloader 
scheinen beliebt.

>Hast du nur Seiten & Bilder oder auch Größere Dateien welche man
>runterladen kann?
Sowohl als auch, aber die Bilder sind eher klein. Normales Surfen 
generiert kaum traffic. Aber es sticht halt heraus, wenn in einem Monat 
50% des traffics von 2 Personen erzeugt werden.

>Aber 50Mb klingt erst mal nicht viel.
Zuletzt waren es 260MB. Eine IP lädt praktisch alle Seiten. Ist aber 
immer eine andere. Manchmal kann man es zuordnen, wie z.B: bei 
Uni-Servern: Ich habe regelmässig Unis aus Indien, China aber auch 
solche aus den USA z.B. vom MIT in Boston. Ich nehme an, dass das 
Studenten sind.

>gleichzeitig kannst du auch noch die bandbreite pro client beschränken -
>aber vorsicht das dabei deine site nicht zäh wird ;)
Das muss Ich mal schauen. Aber im Prinzip habe ich das schon:

>Bei den meisten modernen Webhostern hat man doch sogar unbegrenzt
>traffic.
>Auch bei Deinem sollte das der Fall sein - es sei denn Du hast den Tarif
>nie aktualisiert und nutzt noch einen von vor 10 Jahren oder so ;-)

Genau das ist der Fall! Ich teile mir den Server mit 1000 anderen, 
dadurch wird dem Ruckzuckdownload schon ein Riegel vorgeschoben. Und der 
account ist schön billig. Die neuen Tarife kosten alle deutlich mehr.


>96khz.org ?
ja

>archive.org/web
langsam und unvollständig. Da navigiert man schon mal ins Leere. Aus 
irgendeinem Grund crawled der nicht alle Seiten.

von Pandur S. (jetztnicht)


Lesenswert?

>>96khz.org ?
>ja

Da ist zuviel direkt zugaenglich drauf. Ich wuerd hin und wieder mal ein 
Captcha abfragen, da sollen die Benutzer Interesse zeigen und nicht 
unbesehen alles saugen.
Und nach dem Captcha keine festen Seiten anspringen, sonst ist das 
captcha wertlos.

von MaWin (Gast)


Lesenswert?

Jürgen S. schrieb:
> Zuletzt waren es 260MB.

Und wo ist jetzt das Problem?
Das kostet doch nicht wirklich was. Selbst die billigsten Hoster haben 
hunderte GB inclusive.

von J. S. (engineer) Benutzerseite


Lesenswert?

Naja, Ich hatte ja auch schon mal den Fall, dass eine Person - angeblich 
in den USA - sich eine Adresse aus England registiert hatte, meine 
komplette Seite runtergeladen und mit minimaler Veränderung wieder 
hochgeladen hatte - als Tarnseite für den Verkauf von UGG-boots. Die 
Verantwortliche in England bei der .co.uk Verwaltung zögerte mit einer 
Sperrung dieser "urenglischen" Domain, weil seine Seite ja so echt 
aussah und meine ja die Gefälschte sein könnte. Das hat damals Wochen 
gedauert, bis die weg war. :X  Solche Sachen würde Ich gerne erschweren.

: Bearbeitet durch User
von MaWin (Gast)


Lesenswert?

Jürgen S. schrieb:
> Solche Sachen würde Ich gerne erschweren.

Ja und dann? Dann ist es etwas schwerer und es passiert trotzdem.
Es ärgert aber die legitimen User, die sich die Seite laden, um damit zu 
arbeiten.

von Paul B. (paul_baumann)


Lesenswert?

Jürgen S. schrieb:
> als Tarnseite für den Verkauf von UGG-boots.

Für Alle, die auch nicht wußten, was UGG-Boots sind: Schuhe sind es.

MfG Paul

von J. S. (engineer) Benutzerseite


Lesenswert?

MaWin schrieb:
> Es ärgert aber die legitimen User, die sich die Seite laden, um damit zu
> arbeiten.

[MODE = STOIBÄR]
Der sich normal verhaltende Surfer bleibt im Büro,
kommt niemals raus, und lädt maximal 2-3 FPGA-Seiten im Jahr.

Im Unterschied dazu haben wir den Schadsurfer: Dieser surft wild auf der 
Seite herum, ohne richtig zu lesen und versaut so die Statistik 
hinsichtlich des Interesses der Bsucher

und schließlich gibt es den Problemsurfer, der nicht surft oder liest, 
sondern alles runterlädt, was er kriegen kann und Bandbreite 
verschwendet, damit Anbieter von 50MBit-Internet mehr verkaufen können.

[MODE = NORMAL]

von MaWin (Gast)


Lesenswert?

Außerdem solltest du beachten, dass moderne Browser sowas wie Prefetch 
tun. Es muss also nicht immer der böse Nutzer sein, der eine Seite 
komplett auf einen Streich lädt, sondern es ist sein Browser, der dies 
im Hintergrund tut.

von nicht“Gast“ (Gast)


Lesenswert?

Hallo,

Du machst mich neugierig. Kannst du bitte mal einen Link auf deine Seite 
setzen?

von Jan H. (j_hansen)


Lesenswert?

Prinzipiell kannst du entweder serverseitig (hast du da Möglichkeiten 
bei deinem Hoster?) oder clientseitig eingreifen. Clientseitig muss die 
Logik streng genug sein um Crawler/wget abzuwehren, und wird damit auch 
legitime Benutzer (die z.B. JavaScript deaktiviert haben) treffen.

Das Thema mit der geklauten Webseite ist natürlich schon unangenehm. 
Wenn du das aber ausklammern kannst, dann würde ich einen ganz anderen 
Weg gehen. Anstatt deine Benutzer zu nerven, würde ich ihnen im 
Gegenteil helfen. Und zwar, indem ich ihnen eine gezippte Version der 
Seite zur Verfügung stelle. Dann sind die schnell wieder weg und 
verbrauchen weniger Datenvolumen. Ev. findet sich sogar eine halbwegs 
seriöse Möglichkeit, diese Datei extern zu hosten.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.