Ich entwickle eine Bauteilverwaltung mit einigen Features die ich sonst noch nirgends finden konnte. Bei der ganzen Sache sind für mir auch Crawlerdienste sehr wichtig. Diese sollen mir die Preise und Daten von vielen verschiedenen Shops zusammensuchen wie Farnell, Reichelt, DigiKey, Mouser etc. Einige davon laufen provisorisch als PHP Script auch bereits erfolgreich. Da ich jedoch noch einiges mehr an Arbeitsmühe investieren möchte, würde ich das Projekt gerne auch veröffentlichen. Dabei ist nun die Frage aufgekommen ob das Crawling der Shops eigentlich legal ist, schließlich produziert es nicht unerheblichen Traffic. Wenn nur ich das mache geht das in der Masse eh unter, jedoch wenn es mehr Leute nutzen vielleicht nicht mehr. Die Frage ist nun, ist es generell Legal? Ist nur die Verwendung eines Crawlers vielleicht illegal oder auch das Erstellen? Ich weiss es gibt diverse OpenSource Crawler für Websites im Allgemeinen, aber OS kratzt ja öfter auch mal an den Grenzen der Legalität (z.B. VLC und Co.). Wenn sich hier jemand auskennt wäre ich sehr dankbar für eine Antwort :)
ABO Ich habe etwa sehr ähnliches vor und hab vor dem gleichen Problem gestanden. Meine Idee war es dann, dass NUR ICH die Seiten bei Bedarf crawle und die Preise zentral auf meinem Server ablege, von wo aus sie die Benutzer abfragen können. In wie weit das rechtlich in Ordnung ist und ich nicht in Schwierigkeiten komme (z.B: wegen falscher Preise), weiß ich aber auch noch nicht...
Julian W. schrieb: > In wie weit das rechtlich in Ordnung ist und ich nicht in > Schwierigkeiten komme (z.B: wegen falscher Preise), weiß ich aber auch > noch nicht... Naja das ist denke ich noch das kleinste Problem, muss der Benutzer halt eine Meldung bekommen der er explizit zustimmen muss, dass die Verwendung der Crawler und seiner Daten ohne Gewehr sind und auf eigene "Gefahr" läuft.
Christian Hunke schrieb: > Julian W. schrieb: >> In wie weit das rechtlich in Ordnung ist und ich nicht in >> Schwierigkeiten komme (z.B: wegen falscher Preise), weiß ich aber auch >> noch nicht... > > Naja das ist denke ich noch das kleinste Problem, muss der Benutzer halt > eine Meldung bekommen der er explizit zustimmen muss, dass die > Verwendung der Crawler und seiner Daten ohne Gewehr sind und auf eigene > "Gefahr" läuft. Jop, sowas hab ich mir auch schon gedacht. Nur in Deutschland muss man da ja immer etwas vorsichtig sein, letztens haben ja auch die Preissuchmaschinen eins übergebraten bekommen, wenn sie falsche Preise angezeigt haben.
Wäre crawling illegal müssten Google&Co dichtmachen. AGBs oder Webseiten, in denen sowas deutlich lesbar ausgeschlossen würde, lesen Googles Crawler auch nicht. Es gibt aber irgendwelche automatisch lesbaren Kennzeichnungen in Webseiten oder im HTTP, die dies explizit ausschliessen. Daran sollte man sich dann auch halten. Man sollte auch höflich vorgehen, und den Server nicht mit solcherart automatisch erzeugten Requests überfluten.
Die Datei nennt sich robots.txt und die sollte bei crawlen beachtet werden. Da steht explicit drin, wer was darf und wer nicht. Wobei, wenn man sich vollständig daran hält, hat man zB bei Farnell ein kleines Problem, siehe [1]. Da wird allen außer Suchmaschinen ein Crawlen der Seite vollständig verboten. gruß Mobius [1] http://at.farnell.com/robots.txt edit: Hier gibt es alle Infos zu der Datei: http://www.robotstxt.org/orig.html
Wobei man jetzt natürlich fragen darf, in wie weit diese Anweisungen rechtsverbindlich sind. Aber mit der technischen Natur des Internets sind Politik und Justiz in Deutschland ja ohnehin maßlos überfordert.
Sven P. schrieb: > Aber mit der technischen Natur des Internets sind Politik und Justiz in > Deutschland ja ohnehin maßlos überfordert. Willst du ernsthaft verlangen, dass sich die Politik noch in den hinterletzten Winkel mit ausdrücklichen Regelungen einklinkt, etwa ob man Eier am dicken oder dünnen Ende aufzuschlagen habe? Willst du solcherart entstehende Regalkilometer lesen? Was solche Themen angeht entsteht das konkrete Recht bzw. dessen konkrete Interpretation im Einzelfall eher als Ableitung aus allgemeinen Gesetzen auf dem Weg über gerichtliche Auseinandersetzungen. Das ist zwar in englisch/amerikanischer Rechtstradition verbreiteter und verbindlicher als hierzulande, aber dennoch üblich. Wenn also jemand mal gegen einen Crawler klagt.
A. K. schrieb: > Sven P. schrieb: > >> Aber mit der technischen Natur des Internets sind Politik und Justiz in >> Deutschland ja ohnehin maßlos überfordert. > > Willst du ernsthaft verlangen, dass sich die Politik noch in den > hinterletzten Winkel mit ausdrücklichen Regelungen einklinkt, etwa ob > man Eier am dicken oder dünnen Ende aufzuschlagen habe? Willst du > solcherart entstehende Regalkilometer lesen? Mit Sicherheit nicht. Ich versuche aber dann auch nicht, mit einer Stricknadel ganze Berge wegzupieksen. Und nicht nur in Deutschland -- Es war einmal... Das Internet: http://www.nzz.ch/nachrichten/kultur/medien/verlage_haben_anrecht_auf_besseren_schutz_1.7232236.html
http://preview.tinyurl.com/yb2q3dv "Der Beitrag scheint Spam zu enthalten: "faceb0ok" Haha, lustig -.-
Julian W. schrieb: > Jop, sowas hab ich mir auch schon gedacht. Nur in Deutschland muss man > da ja immer etwas vorsichtig sein, letztens haben ja auch die > Preissuchmaschinen eins übergebraten bekommen, wenn sie falsche Preise > angezeigt haben. Wäre mir ehrlich gesagt neu. Denn die Preissuchmaschinen werden von den Seiten mit Daten gespeist. Und die Shops zahlen dafür noch Geld - und nicht wenig. => Eigene Erfahrung
Dimitri Roschkowski schrieb: > Julian W. schrieb: >> Jop, sowas hab ich mir auch schon gedacht. Nur in Deutschland muss man >> da ja immer etwas vorsichtig sein, letztens haben ja auch die >> Preissuchmaschinen eins übergebraten bekommen, wenn sie falsche Preise >> angezeigt haben. > > Wäre mir ehrlich gesagt neu. Denn die Preissuchmaschinen werden von den > Seiten mit Daten gespeist. Und die Shops zahlen dafür noch Geld - und > nicht wenig. => Eigene Erfahrung Deshalb sieht man bei den Preissuchmaschinen auch keine wirklichen Schnäppchen. Und sie drängeln sich bei Google auch dann vor, wenn sie zum Suchbegriff gar nichts anzubieten haben. Das sind Parasiten des Internets! MfG
Sven P. schrieb: > Wobei man jetzt natürlich fragen darf, in wie weit diese Anweisungen > rechtsverbindlich sind. Sie sind eine Konvention, an die sich offenbar im Großen und Ganzen vor allem auch die großen "Datenkraken" halten. Seien wir froh, dass dem so ist, sonst wäre das Chaos noch größer. Es verbietet dir doch niemand, dass dein Crawler sich als "psbot" meldet. ;-)
Muß man denn wegen einer einzelnen Teileverwaltung immer gleich die gesamte Site eines Anbieters durchcrawlen? Reicht es nicht völlig aus, bei Bedarf diejenigen Artikel zu holen, die gerade gebraucht werden?
Uhu Uhuhu schrieb: > Muß man denn wegen einer einzelnen Teileverwaltung immer gleich die > gesamte Site eines Anbieters durchcrawlen? Reicht es nicht völlig aus, > bei Bedarf diejenigen Artikel zu holen, die gerade gebraucht werden? Ja so ist das schon gedacht, nur die verwalteten Artikel, aber selbst die können ja schnell ein paar hundert bis tausend sein und dann nehmen wir mal 5 Shops, 1x Woche crawlen, macht ja immerhin z.B. 5 Shops * 1000 Artikel * 4,3 Wochen = 21500 Preisanfragen im Monat pro Benutzer. Das einmal wöchentlich dient natürlich der Analyse der Preisentwicklung.
Und warum fragst du nicht einfach nur die Artikel ab, für die gerade ein aktueller Preis gebraucht wird? Preise für Artikel, die aktuell nicht gebraucht werden, muß man doch nicht dauernd aktualisieren. Eine andere Möglichkeit wäre z.B. beim Zugriff auf den Preis eines Artikels in der DB einen Zeitstempel zu aktualisieren und dann nur diejenigen Artikel zu aktualisieren, deren Zeitstempel in der nahen Vergangenheit liegt.
Wieso crawlst du die Daten nicht zentral, bereitest die auf und stellst die deinen Nutzern zur Verfügung?
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.