Wie bekomme Ich es einfach und ohne großen Aufwand hin, komplette Downloads meiner Seite zu unterbinden? Ich würde gerne Passworte oder Ähnliches vermeiden, weil die Besucher durchaus alles sehen sollen. Das was sie nicht sehen sollen, ist auch nicht hochgeladen :-) Die Besucher sollen auf der Seite durchaus navigieren und überall hinkommen aber das tun offenbar die Wenigsten, was man aus der Einsprung- und Ausgangsstatistik sehen kann. Dafür steigt die Zahl der direkten downloads stetig an und immer öfter saugt ein einziger Rechner binnen weniger Minuten gleich 50MB und mehr herunter. Kaum anzunehmen, dass er alle gelisteten Seiten gelesen hat und jemals lesen wird. Es scheinen eher Firmen oder Studenten zu sein, die sich Ideen für eigene Entwicklungen holen wollen und mal vorsorglich alles runterziehen, was es gibt. Grundsätzlich habe Ich da nichts dagegen, denn wie gesagt, sind die richtig interessanten und schützenswerten Information ohnehin nicht hochgeladen. Mich ärgert aber die Bandbreitenbelegung und das Volumen, weil es so langsam an die Grenze kommt. Momentan behelfe Ich mich damit, weite Teile der Seite abzuhängen und sie nur über bestimmte Einsprungseiten, die in google gelistet sind verfügbar zu machen. Ein Komplettdownload von der Seite aus, oder dem Toplevel findet dann nur rund 1/5 der Seiten. Das führt natürlich dazu, dass ein komplettes Navigieren nicht mehr möglich ist. Das Ganze soll möglichst ohne aufwändige Technologien funktionieren, die bei Besuchern dann wieder zu einem Problem führen, weil sie JAVA oder irgendwas anderes nicht aktiv haben. Idee?
Was steht denn bei den "Download" im UserAgent? Warum sollte so viele Leute die seite komplett mit irgendwelchen Programmen herunterladen? Das kommt mir doch sehr merkwürdig vor. Das es ein paar Leute machen kann ja sein, aber so viele das du es merkst? je nachdem wo du zugriff drauf hast, könnte man die Quest pro IP und Zeit begrenzen. Aber es gibt auch Browser die "intelligent" die Seite vorladen. Auch Jedes Images/CSS/JS wir ja einzeln geladen, das sind dann auch schon viele Request. Da hilft nur eine genau Analyse um Parameter zu finden, wonach man filtern kann.
"Normale" Webcrawler sollten eine robots.txt-Datei in der Wurzel der Website honorieren. Ansonsten könnte man Links im HTML durch JavaScript ersetzen, ein normaler Webcrawler kann damit auch nichts anfangen.
Hast du nur Seiten & Bilder oder auch Größere Dateien welche man runterladen kann? Eine Erkennung bei Webseiten wird schwierig. Deswegen lösen viele das mit Anmeldepflicht. Aber 50Mb klingt erst mal nicht viel. Eventuell ist deine Seite auch einfach beliebt dann solltest du mal über einen anderen Server nachdenken.
Was ich schon öfters gesehen habe, ist daß auf einem Webserver der Referer-Header ausgewertet wird. Der Download wird nur erlaubt, wenn der Referer von der richtigen Unterseite auf Deinem Webserver kommt. Damit kannst Du Deep-Links von woanders unterbinden.
Gerd E. schrieb: > Der Download wird nur erlaubt, wenn der > Referer von der richtigen Unterseite auf Deinem Webserver kommt. Und genau das passiert, wenn mit wget rekursiv gelesen wird. Dort ist auch der Name des useragenten einstellbar. Bliebe nur über eine Statistik, wie viele Dateien eine Source IP je Sekunde geladen hat - würde wohl eine Modifikation des Webservers erfordern.
1. alles was erreichbar ist kann auch downgeloaded werden. 2. robots.txt honorieren nur ehrliche crawler (ICH z.b. nicht) mit javasript und erheblichem aufwand lässt sich etwas bauen um dateien vorm automatisierten download zu schützen, klar. aber das willst du wahrscheinlich nicht. bleibt nur traffic-shaping… quellIP basierte restriktion von gleichzeitigen verbindungen und/oder verbindungen pro zeiteinheit. http://unix.stackexchange.com/questions/139285/limit-max-connections-per-ip-address-and-new-connections-per-second-with-iptable gleichzeitig kannst du auch noch die bandbreite pro client beschränken - aber vorsicht das dabei deine site nicht zäh wird ;)
Jürgen S. schrieb: 96khz.org ? > direkten downloads stetig an und immer öfter saugt ein einziger Rechner archive.org/web Saved 53 times between August 5, 2003 and December 25, 2016. ---- "Archivierte" Seiten rausnehmen, link auf archive.org setzen ....
Bei den meisten modernen Webhostern hat man doch sogar unbegrenzt traffic. Auch bei Deinem sollte das der Fall sein - es sei denn Du hast den Tarif nie aktualisiert und nutzt noch einen von vor 10 Jahren oder so ;-)
Gerd E. schrieb: > Damit kannst Du Deep-Links von woanders unterbinden. Wenn ich mir aber diese Seite wegen einer guten Lösung in die Favoriten gespeichert habe, komme ich immer wieder auf direktem Weg auf diese Seite und DAS möchtest Du verhindern? Schlecht. Erst mal die Datenmenge reduzieren. Es muß nicht jedes Bild 5MB groß sein! Wenn es immer nur einige bestimmte Seiten betrifft, würde ich eine Abfrage einbauen um Mensch und Maschine zu unterscheiden (wenn robots.txt nicht hilft). Der Rest stand schon bei Stefan Münz seit 1995. https://wiki.selfhtml.org/
>Was steht denn bei den "Download" im UserAgent? Warum sollte so viele >Leute die seite komplett mit irgendwelchen Programmen herunterladen? keine Ahnung. Es passiert seit einigen Jahren regelmässig steigend mehrfach im Monat. Es ist immer jemand anderes, die Webdownloader scheinen beliebt. >Hast du nur Seiten & Bilder oder auch Größere Dateien welche man >runterladen kann? Sowohl als auch, aber die Bilder sind eher klein. Normales Surfen generiert kaum traffic. Aber es sticht halt heraus, wenn in einem Monat 50% des traffics von 2 Personen erzeugt werden. >Aber 50Mb klingt erst mal nicht viel. Zuletzt waren es 260MB. Eine IP lädt praktisch alle Seiten. Ist aber immer eine andere. Manchmal kann man es zuordnen, wie z.B: bei Uni-Servern: Ich habe regelmässig Unis aus Indien, China aber auch solche aus den USA z.B. vom MIT in Boston. Ich nehme an, dass das Studenten sind. >gleichzeitig kannst du auch noch die bandbreite pro client beschränken - >aber vorsicht das dabei deine site nicht zäh wird ;) Das muss Ich mal schauen. Aber im Prinzip habe ich das schon: >Bei den meisten modernen Webhostern hat man doch sogar unbegrenzt >traffic. >Auch bei Deinem sollte das der Fall sein - es sei denn Du hast den Tarif >nie aktualisiert und nutzt noch einen von vor 10 Jahren oder so ;-) Genau das ist der Fall! Ich teile mir den Server mit 1000 anderen, dadurch wird dem Ruckzuckdownload schon ein Riegel vorgeschoben. Und der account ist schön billig. Die neuen Tarife kosten alle deutlich mehr. >96khz.org ? ja >archive.org/web langsam und unvollständig. Da navigiert man schon mal ins Leere. Aus irgendeinem Grund crawled der nicht alle Seiten.
>>96khz.org ? >ja Da ist zuviel direkt zugaenglich drauf. Ich wuerd hin und wieder mal ein Captcha abfragen, da sollen die Benutzer Interesse zeigen und nicht unbesehen alles saugen. Und nach dem Captcha keine festen Seiten anspringen, sonst ist das captcha wertlos.
Jürgen S. schrieb: > Zuletzt waren es 260MB. Und wo ist jetzt das Problem? Das kostet doch nicht wirklich was. Selbst die billigsten Hoster haben hunderte GB inclusive.
Naja, Ich hatte ja auch schon mal den Fall, dass eine Person - angeblich in den USA - sich eine Adresse aus England registiert hatte, meine komplette Seite runtergeladen und mit minimaler Veränderung wieder hochgeladen hatte - als Tarnseite für den Verkauf von UGG-boots. Die Verantwortliche in England bei der .co.uk Verwaltung zögerte mit einer Sperrung dieser "urenglischen" Domain, weil seine Seite ja so echt aussah und meine ja die Gefälschte sein könnte. Das hat damals Wochen gedauert, bis die weg war. :X Solche Sachen würde Ich gerne erschweren.
:
Bearbeitet durch User
Jürgen S. schrieb: > Solche Sachen würde Ich gerne erschweren. Ja und dann? Dann ist es etwas schwerer und es passiert trotzdem. Es ärgert aber die legitimen User, die sich die Seite laden, um damit zu arbeiten.
Jürgen S. schrieb: > als Tarnseite für den Verkauf von UGG-boots. Für Alle, die auch nicht wußten, was UGG-Boots sind: Schuhe sind es. MfG Paul
MaWin schrieb: > Es ärgert aber die legitimen User, die sich die Seite laden, um damit zu > arbeiten. [MODE = STOIBÄR] Der sich normal verhaltende Surfer bleibt im Büro, kommt niemals raus, und lädt maximal 2-3 FPGA-Seiten im Jahr. Im Unterschied dazu haben wir den Schadsurfer: Dieser surft wild auf der Seite herum, ohne richtig zu lesen und versaut so die Statistik hinsichtlich des Interesses der Bsucher und schließlich gibt es den Problemsurfer, der nicht surft oder liest, sondern alles runterlädt, was er kriegen kann und Bandbreite verschwendet, damit Anbieter von 50MBit-Internet mehr verkaufen können. [MODE = NORMAL]
Außerdem solltest du beachten, dass moderne Browser sowas wie Prefetch tun. Es muss also nicht immer der böse Nutzer sein, der eine Seite komplett auf einen Streich lädt, sondern es ist sein Browser, der dies im Hintergrund tut.
Hallo, Du machst mich neugierig. Kannst du bitte mal einen Link auf deine Seite setzen?
Prinzipiell kannst du entweder serverseitig (hast du da Möglichkeiten bei deinem Hoster?) oder clientseitig eingreifen. Clientseitig muss die Logik streng genug sein um Crawler/wget abzuwehren, und wird damit auch legitime Benutzer (die z.B. JavaScript deaktiviert haben) treffen. Das Thema mit der geklauten Webseite ist natürlich schon unangenehm. Wenn du das aber ausklammern kannst, dann würde ich einen ganz anderen Weg gehen. Anstatt deine Benutzer zu nerven, würde ich ihnen im Gegenteil helfen. Und zwar, indem ich ihnen eine gezippte Version der Seite zur Verfügung stelle. Dann sind die schnell wieder weg und verbrauchen weniger Datenvolumen. Ev. findet sich sogar eine halbwegs seriöse Möglichkeit, diese Datei extern zu hosten.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.