Forum: PC-Programmierung Datascraping von Website über Clouddienst


von Joh (Gast)


Lesenswert?

Hallo zusammen.

Dass man Daten von Webseiten scrapen kann, wissen wir ja.
Man wählt z.B. den gewünschten Tag über ein Webtool aus, welches einem 
die relevanten Seiten auf einer Webseite liefert. Der entsprechende 
Pfad/Tag zum gewünschten HTML-Element wird einem dann vom Webtool 
geliefert, womit man dann z.B. über Excel die Daten in eine Zelle 
schreiben lassen kann.

Nun gibt es im Internet einige Tutorials, wie man Daten über einen 
Cloud-Dienst (z.B. Google Spreadsheet) nutzen kann. Durch die Funktion 
"=importXML(url,query)" lassen sich somit in Google Spreadsheet die 
Daten einer Seite scrapen.

Nun geht es um eine Webseite, die ein Anfragenlimit von 5 Anfragen pro 
Minute limitiert. Anhand der eigenen IP-Adresse ermittelt vermutlich die 
besagte Seite, wie oft der User eine Anfrage pro Zeiteinheit abgesetzt 
hat. Ist die Anzahl der zulässigen Abfragen pro Zeiteinheit 
überschritten, kommt die Meldung, dass man eine Minute warten muss um 
wieder Anfragen an die Seite zu schicken.
Anhand der IP-Adresse des Anfragenden ist es ja kein Problem, die 
Anfragen aus Sicht des Seitenbetreibers zu limitieren. Wie aber verhält 
es sich bei Cloud-Diensten? Welche "IP" nehmen die her, wenn ich die 
Daten z.B. über den Google Sheet-Dienst scrape? Holt sich die Seite dann 
eine fiktive IP von Google oder leitet Google meine IP vom ISP an die 
Seite weiter?

Ich hoffe, ich konnte die Frage einleuchtend beschreiben und hoffe auf 
eure Hilfe!

Vielen Dank!

von Peter II (Gast)


Lesenswert?

Joh schrieb:
> Wie aber verhält
> es sich bei Cloud-Diensten? Welche "IP" nehmen die her,

die IP woher die anfrage kommt.


>  wenn ich die
> Daten z.B. über den Google Sheet-Dienst scrape?
geht das denn überhaupt? Ich könnte mir vorstellen das sie das gar nicht 
zulassen.

von M. P. (matze7779)


Lesenswert?

Probier es doch einfach mal aus.
Scrappe doch ein paar mal die Seite wieistmeineip.de

von Noch einer (Gast)


Lesenswert?

Die Website mit dem Abfragelimit sieht ja nur die reale IP Adresse des 
Cloud-Dienstes. Wenn der Cloud-Dienst mehrere Benutzer auf den selben 
Server legt, glaubt das Abfragelimit ihr seit nur ein Benutzer.

Im Http-Header gibt es ein X-Forwarded-For. Aber den kann das 
Abfragelimit nicht benutzen. Lässt sich recht einfach fälschen.

von T.roll (Gast)


Lesenswert?

Joh schrieb:
> Welche "IP" nehmen die her, wenn ich die
> Daten z.B. über den Google Sheet-Dienst scrape? Holt sich die Seite dann
> eine fiktive IP von Google oder leitet Google meine IP vom ISP an die
> Seite weiter?

Als Seitenbetreiber sehe ich die IP von dem Cloud-Dienst (hier Google) 
und die ist gar nicht "fiktiv".

Joh schrieb:
> Nun geht es um eine Webseite, die ein Anfragenlimit von 5 Anfragen pro
> Minute limitiert. Anhand der eigenen IP-Adresse ermittelt vermutlich die
> besagte Seite, wie oft der User eine Anfrage pro Zeiteinheit abgesetzt
> hat.

Wenn mir sowas in den Logs öfter auffällt, dann gibts je nach Art 
entweder eine Abuse-Meldung oder ist kante die IP/Range dauerhaft raus 
(htaccess). So ein Limit ist ja nicht zum Spaß eingebaut. Diese 
Datensammler kosten mich nur unnötig Geld und verbrauchen Bandbreite die 
bei richtigen Besuchern dann womöglich fehlt.

Beitrag #5970505 wurde von einem Moderator gelöscht.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.