mikrocontroller.net

Forum: PC-Programmierung Datascraping von Website über Clouddienst


Autor: Joh (Gast)
Datum:

Bewertung
-1 lesenswert
nicht lesenswert
Hallo zusammen.

Dass man Daten von Webseiten scrapen kann, wissen wir ja.
Man wählt z.B. den gewünschten Tag über ein Webtool aus, welches einem 
die relevanten Seiten auf einer Webseite liefert. Der entsprechende 
Pfad/Tag zum gewünschten HTML-Element wird einem dann vom Webtool 
geliefert, womit man dann z.B. über Excel die Daten in eine Zelle 
schreiben lassen kann.

Nun gibt es im Internet einige Tutorials, wie man Daten über einen 
Cloud-Dienst (z.B. Google Spreadsheet) nutzen kann. Durch die Funktion 
"=importXML(url,query)" lassen sich somit in Google Spreadsheet die 
Daten einer Seite scrapen.

Nun geht es um eine Webseite, die ein Anfragenlimit von 5 Anfragen pro 
Minute limitiert. Anhand der eigenen IP-Adresse ermittelt vermutlich die 
besagte Seite, wie oft der User eine Anfrage pro Zeiteinheit abgesetzt 
hat. Ist die Anzahl der zulässigen Abfragen pro Zeiteinheit 
überschritten, kommt die Meldung, dass man eine Minute warten muss um 
wieder Anfragen an die Seite zu schicken.
Anhand der IP-Adresse des Anfragenden ist es ja kein Problem, die 
Anfragen aus Sicht des Seitenbetreibers zu limitieren. Wie aber verhält 
es sich bei Cloud-Diensten? Welche "IP" nehmen die her, wenn ich die 
Daten z.B. über den Google Sheet-Dienst scrape? Holt sich die Seite dann 
eine fiktive IP von Google oder leitet Google meine IP vom ISP an die 
Seite weiter?

Ich hoffe, ich konnte die Frage einleuchtend beschreiben und hoffe auf 
eure Hilfe!

Vielen Dank!

Autor: Peter II (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Joh schrieb:
> Wie aber verhält
> es sich bei Cloud-Diensten? Welche "IP" nehmen die her,

die IP woher die anfrage kommt.


>  wenn ich die
> Daten z.B. über den Google Sheet-Dienst scrape?
geht das denn überhaupt? Ich könnte mir vorstellen das sie das gar nicht 
zulassen.

Autor: M. P. (matze7779)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Probier es doch einfach mal aus.
Scrappe doch ein paar mal die Seite wieistmeineip.de

Autor: Noch einer (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Die Website mit dem Abfragelimit sieht ja nur die reale IP Adresse des 
Cloud-Dienstes. Wenn der Cloud-Dienst mehrere Benutzer auf den selben 
Server legt, glaubt das Abfragelimit ihr seit nur ein Benutzer.

Im Http-Header gibt es ein X-Forwarded-For. Aber den kann das 
Abfragelimit nicht benutzen. Lässt sich recht einfach fälschen.

Autor: T.roll (Gast)
Datum:

Bewertung
1 lesenswert
nicht lesenswert
Joh schrieb:
> Welche "IP" nehmen die her, wenn ich die
> Daten z.B. über den Google Sheet-Dienst scrape? Holt sich die Seite dann
> eine fiktive IP von Google oder leitet Google meine IP vom ISP an die
> Seite weiter?

Als Seitenbetreiber sehe ich die IP von dem Cloud-Dienst (hier Google) 
und die ist gar nicht "fiktiv".

Joh schrieb:
> Nun geht es um eine Webseite, die ein Anfragenlimit von 5 Anfragen pro
> Minute limitiert. Anhand der eigenen IP-Adresse ermittelt vermutlich die
> besagte Seite, wie oft der User eine Anfrage pro Zeiteinheit abgesetzt
> hat.

Wenn mir sowas in den Logs öfter auffällt, dann gibts je nach Art 
entweder eine Abuse-Meldung oder ist kante die IP/Range dauerhaft raus 
(htaccess). So ein Limit ist ja nicht zum Spaß eingebaut. Diese 
Datensammler kosten mich nur unnötig Geld und verbrauchen Bandbreite die 
bei richtigen Besuchern dann womöglich fehlt.

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.