Forum: Offtopic WebCrawling legal?


von Christian H. (thunder2002) Benutzerseite


Lesenswert?

Ich entwickle eine Bauteilverwaltung mit einigen Features die ich sonst 
noch nirgends finden konnte. Bei der ganzen Sache sind für mir auch 
Crawlerdienste sehr wichtig. Diese sollen mir die Preise und Daten von 
vielen verschiedenen Shops zusammensuchen wie Farnell, Reichelt, 
DigiKey, Mouser etc. Einige davon laufen provisorisch als PHP Script 
auch bereits erfolgreich. Da ich jedoch noch einiges mehr an Arbeitsmühe 
investieren möchte, würde ich das Projekt gerne auch veröffentlichen.

Dabei ist nun die Frage aufgekommen ob das Crawling der Shops eigentlich 
legal ist, schließlich produziert es nicht unerheblichen Traffic. Wenn 
nur ich das mache geht das in der Masse eh unter, jedoch wenn es mehr 
Leute nutzen vielleicht nicht mehr. Die Frage ist nun, ist es generell 
Legal? Ist nur die Verwendung eines Crawlers vielleicht illegal oder 
auch das Erstellen? Ich weiss es gibt diverse OpenSource Crawler für 
Websites im Allgemeinen, aber OS kratzt ja öfter auch mal an den Grenzen 
der Legalität (z.B. VLC und Co.).

Wenn sich hier jemand auskennt wäre ich sehr dankbar für eine Antwort :)

von Julian W. (julian-w) Benutzerseite


Lesenswert?

ABO

Ich habe etwa sehr ähnliches vor und hab vor dem gleichen Problem 
gestanden. Meine Idee war es dann, dass NUR ICH die Seiten bei Bedarf 
crawle und die Preise zentral auf meinem Server ablege, von wo aus sie 
die Benutzer abfragen können.
In wie weit das rechtlich in Ordnung ist und ich nicht in 
Schwierigkeiten komme (z.B: wegen falscher Preise), weiß ich aber auch 
noch nicht...

von Christian H. (thunder2002) Benutzerseite


Lesenswert?

Julian W. schrieb:
> In wie weit das rechtlich in Ordnung ist und ich nicht in
> Schwierigkeiten komme (z.B: wegen falscher Preise), weiß ich aber auch
> noch nicht...

Naja das ist denke ich noch das kleinste Problem, muss der Benutzer halt 
eine Meldung bekommen der er explizit zustimmen muss, dass die 
Verwendung der Crawler und seiner Daten ohne Gewehr sind und auf eigene 
"Gefahr" läuft.

von Julian W. (julian-w) Benutzerseite


Lesenswert?

Christian Hunke schrieb:
> Julian W. schrieb:
>> In wie weit das rechtlich in Ordnung ist und ich nicht in
>> Schwierigkeiten komme (z.B: wegen falscher Preise), weiß ich aber auch
>> noch nicht...
>
> Naja das ist denke ich noch das kleinste Problem, muss der Benutzer halt
> eine Meldung bekommen der er explizit zustimmen muss, dass die
> Verwendung der Crawler und seiner Daten ohne Gewehr sind und auf eigene
> "Gefahr" läuft.

Jop, sowas hab ich mir auch schon gedacht. Nur in Deutschland muss man 
da ja immer etwas vorsichtig sein, letztens haben ja auch die 
Preissuchmaschinen eins übergebraten bekommen, wenn sie falsche Preise 
angezeigt haben.

von (prx) A. K. (prx)


Lesenswert?

Wäre crawling illegal müssten Google&Co dichtmachen. AGBs oder 
Webseiten, in denen sowas deutlich lesbar ausgeschlossen würde, lesen 
Googles Crawler auch nicht.

Es gibt aber irgendwelche automatisch lesbaren Kennzeichnungen in 
Webseiten oder im HTTP, die dies explizit ausschliessen. Daran sollte 
man sich dann auch halten.

Man sollte auch höflich vorgehen, und den Server nicht mit solcherart 
automatisch erzeugten Requests überfluten.

von Laszlo H. (mobius)


Lesenswert?

Die Datei nennt sich robots.txt und die sollte bei crawlen beachtet 
werden. Da steht explicit drin, wer was darf und wer nicht. Wobei, wenn 
man sich vollständig daran hält, hat man zB bei Farnell ein kleines 
Problem, siehe [1]. Da wird allen außer Suchmaschinen ein Crawlen der 
Seite vollständig verboten.

gruß
Mobius

[1] http://at.farnell.com/robots.txt

edit: Hier gibt es alle Infos zu der Datei: 
http://www.robotstxt.org/orig.html

von Sven P. (Gast)


Lesenswert?

Wobei man jetzt natürlich fragen darf, in wie weit diese Anweisungen 
rechtsverbindlich sind.

Aber mit der technischen Natur des Internets sind Politik und Justiz in 
Deutschland ja ohnehin maßlos überfordert.

von (prx) A. K. (prx)


Lesenswert?

Sven P. schrieb:

> Aber mit der technischen Natur des Internets sind Politik und Justiz in
> Deutschland ja ohnehin maßlos überfordert.

Willst du ernsthaft verlangen, dass sich die Politik noch in den 
hinterletzten Winkel mit ausdrücklichen Regelungen einklinkt, etwa ob 
man Eier am dicken oder dünnen Ende aufzuschlagen habe? Willst du 
solcherart entstehende Regalkilometer lesen?

Was solche Themen angeht entsteht das konkrete Recht bzw. dessen 
konkrete Interpretation im Einzelfall eher als Ableitung aus allgemeinen 
Gesetzen auf dem Weg über gerichtliche Auseinandersetzungen. Das ist 
zwar in englisch/amerikanischer Rechtstradition verbreiteter und 
verbindlicher als hierzulande, aber dennoch üblich. Wenn also jemand mal 
gegen einen Crawler klagt.

von Sven P. (Gast)


Lesenswert?

A. K. schrieb:
> Sven P. schrieb:
>
>> Aber mit der technischen Natur des Internets sind Politik und Justiz in
>> Deutschland ja ohnehin maßlos überfordert.
>
> Willst du ernsthaft verlangen, dass sich die Politik noch in den
> hinterletzten Winkel mit ausdrücklichen Regelungen einklinkt, etwa ob
> man Eier am dicken oder dünnen Ende aufzuschlagen habe? Willst du
> solcherart entstehende Regalkilometer lesen?
Mit Sicherheit nicht.

Ich versuche aber dann auch nicht, mit einer Stricknadel ganze Berge 
wegzupieksen.

Und nicht nur in Deutschland -- Es war einmal... Das Internet:
http://www.nzz.ch/nachrichten/kultur/medien/verlage_haben_anrecht_auf_besseren_schutz_1.7232236.html

von David .. (volatile)


Lesenswert?

http://preview.tinyurl.com/yb2q3dv

"Der Beitrag scheint Spam zu enthalten: "faceb0ok"
Haha, lustig -.-

von Dimitri R. (Firma: port29 GmbH) (port29) Benutzerseite


Lesenswert?

Julian W. schrieb:
> Jop, sowas hab ich mir auch schon gedacht. Nur in Deutschland muss man
> da ja immer etwas vorsichtig sein, letztens haben ja auch die
> Preissuchmaschinen eins übergebraten bekommen, wenn sie falsche Preise
> angezeigt haben.

Wäre mir ehrlich gesagt neu. Denn die Preissuchmaschinen werden von den 
Seiten mit Daten gespeist. Und die Shops zahlen dafür noch Geld - und 
nicht wenig. => Eigene Erfahrung

von Kluchscheißernder N. (kluchscheisser)


Lesenswert?

Dimitri Roschkowski schrieb:
> Julian W. schrieb:
>> Jop, sowas hab ich mir auch schon gedacht. Nur in Deutschland muss man
>> da ja immer etwas vorsichtig sein, letztens haben ja auch die
>> Preissuchmaschinen eins übergebraten bekommen, wenn sie falsche Preise
>> angezeigt haben.
>
> Wäre mir ehrlich gesagt neu. Denn die Preissuchmaschinen werden von den
> Seiten mit Daten gespeist. Und die Shops zahlen dafür noch Geld - und
> nicht wenig. => Eigene Erfahrung

Deshalb sieht man bei den Preissuchmaschinen auch keine wirklichen 
Schnäppchen. Und sie drängeln sich bei Google auch dann vor, wenn sie 
zum Suchbegriff gar nichts anzubieten haben. Das sind Parasiten des 
Internets!

MfG

von Jörg W. (dl8dtl) (Moderator) Benutzerseite


Lesenswert?

Sven P. schrieb:
> Wobei man jetzt natürlich fragen darf, in wie weit diese Anweisungen
> rechtsverbindlich sind.

Sie sind eine Konvention, an die sich offenbar im Großen und Ganzen
vor allem auch die großen "Datenkraken" halten.  Seien wir froh, dass
dem so ist, sonst wäre das Chaos noch größer.

Es verbietet dir doch niemand, dass dein Crawler sich als "psbot"
meldet. ;-)

von Uhu U. (uhu)


Lesenswert?

Muß man denn wegen einer einzelnen Teileverwaltung immer gleich die 
gesamte Site eines Anbieters durchcrawlen? Reicht es nicht völlig aus, 
bei Bedarf diejenigen Artikel zu holen, die gerade gebraucht werden?

von Christian H. (thunder2002) Benutzerseite


Lesenswert?

Uhu Uhuhu schrieb:
> Muß man denn wegen einer einzelnen Teileverwaltung immer gleich die
> gesamte Site eines Anbieters durchcrawlen? Reicht es nicht völlig aus,
> bei Bedarf diejenigen Artikel zu holen, die gerade gebraucht werden?

Ja so ist das schon gedacht, nur die verwalteten Artikel, aber selbst 
die können ja schnell ein paar hundert bis tausend sein und dann nehmen 
wir mal 5 Shops, 1x Woche crawlen, macht ja immerhin z.B. 5 Shops * 1000 
Artikel * 4,3 Wochen = 21500 Preisanfragen im Monat pro Benutzer. Das 
einmal wöchentlich dient natürlich der Analyse der Preisentwicklung.

von Uhu U. (uhu)


Lesenswert?

Und warum fragst du nicht einfach nur die Artikel ab, für die gerade ein 
aktueller Preis gebraucht wird?

Preise für Artikel, die aktuell nicht gebraucht werden, muß man doch 
nicht dauernd aktualisieren.

Eine andere Möglichkeit wäre z.B. beim Zugriff auf den Preis eines 
Artikels in der DB einen Zeitstempel zu aktualisieren und dann nur 
diejenigen Artikel zu aktualisieren, deren Zeitstempel in der nahen 
Vergangenheit liegt.

von Dimitri R. (Firma: port29 GmbH) (port29) Benutzerseite


Lesenswert?

Wieso crawlst du die Daten nicht zentral, bereitest die auf und stellst 
die deinen Nutzern zur Verfügung?

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.