Das wird ja immer bekloppter hier...
Beitrag "Re: Mikrocontroller.net und die Waybackmachine" „bekloppt“ wäre also bestenfalls ein passendes Attribut für die Betreiber von archive.org, da sie sich offenbar weigern, einen etablierten de-facto-Internetstandard (robots.txt) zu respektieren.
:
Bearbeitet durch Moderator
Jörg W. schrieb: > Beitrag "Re: Mikrocontroller.net und die Waybackmachine" > > „bekloppt“ wäre also bestenfalls ein passendes Attribut für die > Betreiber von archive.org, da sie sich offenbar weigern, einen > etablierten de-facto-Internetstandard (robots.txt) zu respektieren. Der verlinkte Thread war an mir vorbeigegangen, merci für die schnelle Antwort.
Jörg W. schrieb: > Beitrag "Re: Mikrocontroller.net und die Waybackmachine" > > „bekloppt“ wäre also bestenfalls ein passendes Attribut für die > Betreiber von archive.org, da sie sich offenbar weigern, einen > etablierten de-facto-Internetstandard (robots.txt) zu respektieren. Sie haben freilich eine sinnvolle Begründung dafür genannt, warum sie dies tun. Einfach mal den verlinkten Artikel lesen: https://www.heise.de/newsticker/meldung/Archivierung-des-Internets-Internet-Archive-ignoriert-kuenftig-robots-txt-3693558.html
Mark B. schrieb: > Sie haben freilich eine sinnvolle Begründung dafür genannt, warum sie > dies tun. Dann hätten sie sich besser drum bemühen sollen, den robots.txt-Standard zu ergänzen, statt sie einfach zu ignorieren. Wie Andreas' Beispiel zeigt, gibt es eben genauso gute Gründe, warum man sich dran halten sollte – Archiv hin, Wayback-Machine her.
Mark B. schrieb: > Sie haben freilich eine sinnvolle Begründung dafür genannt, warum sie > dies tun. Einfach mal den verlinkten Artikel lesen: > > https://www.heise.de/newsticker/meldung/Archivierung-des-Internets-Internet-Archive-ignoriert-kuenftig-robots-txt-3693558.html Naja hier muss aber eine sinnvoll klingende Begründung für ne unsinnige Aktion herhalten. Zitat: " Das Archiv solle das Internet aber so zeigen, wie es wirklich aussah, nicht wie es in den robots.txt deklariert wurde. " Also schmeisst man alle websites aus dem Archiv raus, die eine robots.txt pflegen, nur damit robots.txt keine Einfluss auf das Archiv hat?!?! Und nur ein Internet ohne robots.txt ein "wirkliches" Internet ist?! -> Die spinnen, die Römer!
Mark B. schrieb: > Sie haben freilich eine sinnvolle Begründung dafür genannt, warum sie > dies tun. Fakt ist, Andreas hat hier das Hausrecht! Wenn ich nicht will das jemand anderes mein Hinweisschild am Eingang akzeptiert, dann stelle ich es wie eine robots.txt auf. Kommt dann ein Besucher und sagt das er das Haus so sehen möchte wie er will und nicht wie ich, erteile ich ihm Hausverbot. "The WaybackMachine" wurde bei uns per IP-Block ausgeschlossen. Unsere Admins meinten mal, wir sollten eine php schreiben die zufällig generierte Websites mit zufällig generierte Bilddaten ausliefern sollte. Also Gigabytes an Falschinfo. Unsere Leitung würde das hergeben und kostet nicht extra. Die PHP dann auf die Bereiche legen wo die robots.txt ausschließt. Damit müllen die sich dann selbst den Server zu.
Berufsrevolutionär schrieb: > Also schmeisst man alle websites aus dem Archiv raus, die eine > robots.txt pflegen, nur damit robots.txt keine Einfluss auf das Archiv > hat?!?! Sie schmeißen die Seiten nur raus, wenn die Betreiber das fordern. > Fakt ist, Andreas hat hier das Hausrecht! Fakt ist, jemand stellt Inhalte ÖFFENTLICH EINSEHBAR ins Netz. D.h. jeder kann und DARF diese Inhalte auch ansehen. Egal was in einer Robots.txt steht. Was man nicht möchte dass es gesehen und evt. gespeichert wird, sollte man nicht öffentlich ins Netz stellen. So viel zu den Fakten. > Unsere Admins meinten mal, wir sollten eine > php schreiben die zufällig generierte Websites mit zufällig generierte > Bilddaten ausliefern sollte. Also Gigabytes an Falschinfo. Unsere > Leitung würde das hergeben und kostet nicht extra. Die PHP dann auf die > Bereiche legen wo die robots.txt ausschließt. Damit müllen die sich dann > selbst den Server zu. Ihr seid die Helden!
:
Bearbeitet durch User
Beitrag #5568175 wurde von einem Moderator gelöscht.
Beitrag #5568187 wurde von einem Moderator gelöscht.
Cyblord -. schrieb: > Was man nicht möchte dass es gesehen und evt. gespeichert wird, sollte > man nicht öffentlich ins Netz stellen. Wenn du dynamisch generierte Inhalte hast, dann ist es alles andere als sinnvoll, dass irgendjemand da „alles“ saugt – es könnte sein, dass er anschließend zum Speichern eine unendlich große Festplatte benötigen würde … Wenn ich nun einem Crawler per robots.txt den freundlichen Hinweis gebe, an welcher Stelle es einfach keinen Sinn hat weiterzuwürgen, er aber der Meinung ist, sich kraft seiner Wassersuppe drüber hinwegsetzen zu müssen – was soll das?
Jörg W. schrieb: > Cyblord -. schrieb: >> Was man nicht möchte dass es gesehen und evt. gespeichert wird, sollte >> man nicht öffentlich ins Netz stellen. > > Wenn du dynamisch generierte Inhalte hast, dann ist es alles andere als > sinnvoll, dass irgendjemand da „alles“ saugt – es könnte sein, dass er > anschließend zum Speichern eine unendlich große Festplatte benötigen > würde … Es geht nicht um sinnvoll. Der Alex hat irgendwas von Hausrecht geblubbert. Überlasse es doch den Crawlern ob die es für sinnvoll halten. > Wenn ich nun einem Crawler per robots.txt den freundlichen Hinweis gebe, > an welcher Stelle es einfach keinen Sinn hat weiterzuwürgen, er aber der > Meinung ist, sich kraft seiner Wassersuppe drüber hinwegsetzen zu müssen > – was soll das? Keine Ahnung? Die werden ihre Gründe haben und haben die ja auch dargelegt. Evt. erkennen die dynamische Quellen selbständig und ohne viel Daten saugen zu müssen. Nochmal: Wer öffentlich ein Plakat hinhängt, kann nicht bestimmen wer es unter welchen Bedingungen anschauen darf. Außerdem habt ihr doch jetzt was ihr wollt. Die Wayback Machine lässt euch komplett in Ruhe. Die machen das genau richtig. Nöler einfach komplett raus, dann ist Ruhe.
:
Bearbeitet durch User
Cyblord -. schrieb: > Nochmal: Wer öffentlich ein Plakat hinhängt, kann nicht bestimmen wer es > unter welchen Bedingungen anschauen darf. Kann es sein, daß Du nicht verstanden hast oder nicht akzeptieren willst, welchen Sinn robots.txt hat?
Rufus Τ. F. schrieb: > Cyblord -. schrieb: >> Nochmal: Wer öffentlich ein Plakat hinhängt, kann nicht bestimmen wer es >> unter welchen Bedingungen anschauen darf. > > Kann es sein, daß Du nicht verstanden hast oder nicht akzeptieren > willst, welchen Sinn robots.txt hat? Richtig. Ich bin zu dumm und verstehe es einfach nicht. Wenns dir damit besser geht lieber Rufus, dann setze dies bitte so vorraus. Die robots.txt ist eine Empfehlung, und dazu für Suchmaschinen gedacht. Eine Internetarchiv hat völlig zu recht andere Anforderungen und kann es dehalb auch völlig zu recht ignorieren wenn die Betreiber es für sinnvoll halten. Sogar auch dann wenn ein Rufus dass nicht für sinnvoll hält. Wer hätte das gedacht?
:
Bearbeitet durch User
Cyblord -. schrieb: > Außerdem habt ihr doch jetzt was ihr wollt. Die Wayback Machine lässt > euch komplett in Ruhe. Das war keineswegs das, was Andreas haben wollte. Könntest du natürlich nachlesen, wenn du wölltest.
Jörg W. schrieb: > Cyblord -. schrieb: >> Außerdem habt ihr doch jetzt was ihr wollt. Die Wayback Machine lässt >> euch komplett in Ruhe. > > Das war keineswegs das, was Andreas haben wollte. Könntest du natürlich > nachlesen, wenn du wölltest. Ja man kann halt nicht alles haben im Leben. Entweder Nörgeln und krude Vorstellungen durchsetzen wollen oder Teil des Internetarchives sein. Beides geht nicht. Ich finde die Betreiber dort sympatisch. Nicht diskutieren sondern abschalten. Aber hey, dieses Prinzip müsste euch Mods doch geläufig sein. Nech?
:
Bearbeitet durch User
Beitrag #5568332 wurde von einem Moderator gelöscht.
Cyblord -. schrieb: > Berufsrevolutionär schrieb: >> Also schmeisst man alle websites aus dem Archiv raus, die eine >> robots.txt pflegen, nur damit robots.txt keine Einfluss auf das Archiv >> hat?!?! > > Sie schmeißen die Seiten nur raus, wenn die Betreiber das fordern. Nein, die schmeissen raus wie sie lustig sind. Von seitens mikrocontroller.net hat keiner den Ausschluss aus dem Archiv gefordert, im Gegenteil: Zitat: "I do NOT want to exclude mikrocontroller.net from being archived, ... Thanks, Andreas" Dort nachlesbar: Beitrag "Re: Mikrocontroller.net und die Waybackmachine"
Beitrag #5568338 wurde von einem Moderator gelöscht.
Cyblord -. schrieb: > Die robots.txt ist eine Empfehlung, und dazu für Suchmaschinen gedacht. > Eine Internetarchiv hat völlig zu recht andere Anforderungen und kann es > dehalb auch völlig zu recht ignorieren wenn die Betreiber es für > sinnvoll halten. Das ist Deine wie üblich sehr gewagte Interpretation.
Richtig Steller schrieb: > Nein, die schmeissen raus wie sie lustig sind. Von seitens > mikrocontroller.net hat keiner den Ausschluss aus dem Archiv gefordert, Aber rumgenörgelt. Reicht hier doch auch für ne Löschung von Posts. > im Gegenteil: Nix Gegenteil. Das kam ja erst danach als Kind schon in den Brunnen gefallen war.
Richtig Steller schrieb: > Zitat: > "I do NOT want to exclude mikrocontroller.net from being archived, ... > > Thanks, > Andreas" > > Dort nachlesbar: > Beitrag "Re: Mikrocontroller.net und die Waybackmachine" Würdest du das bitte unterlassen? Cylord hat doch klargestellt wie es richtig ablief! Deine Informationen müssen also falsch sein und stellt zu Unrecht Cylord in ein falsches Licht!
Alex W. schrieb: > Würdest du das bitte unterlassen? Cylord hat doch klargestellt wie es > richtig ablief! Deine Informationen müssen also falsch sein und stellt > zu Unrecht Cylord in ein falsches Licht! Kann ich bitte ein Hinweisschild "Vorsicht Sarkasmus" haben ?! https://www.youtube.com/watch?v=SPmxsRDSmTc Danke!
Jörg W. schrieb: > Mark B. schrieb: >> Sie haben freilich eine sinnvolle Begründung dafür genannt, warum sie >> dies tun. > > Dann hätten sie sich besser drum bemühen sollen, den robots.txt-Standard > zu ergänzen, statt sie einfach zu ignorieren. Wie Andreas' Beispiel > zeigt, gibt es eben genauso gute Gründe, warum man sich dran halten > sollte – Archiv hin, Wayback-Machine her. Andreas schrieb dazu ja: Andreas S. schrieb: > I do NOT want to exclude mikrocontroller.net from being archived, I just > want the crawler to respect robots.txt to avoid wasting traffic on > nonsensical URIs. Das ist genau dann ein valides Argument, wenn die Menge an unnötig generiertem Traffic signifikant groß ist. Die Frage, um wieviel zusätzlichen Traffic es denn nun eigentlich geht: Mark B. schrieb: > Über wieviel zusätzlichen Traffic reden wir hier denn? Ist das > tatsächlich so viel, als dass es sinnvoller erscheint gar keine > Archivierung mehr zuzulassen? wurde von Andreas ignoriert. Vielleicht weil diese Menge gar nicht so besonders groß ist?
Mark B. schrieb: > Andreas S. schrieb: >> I do NOT want to exclude mikrocontroller.net from being archived, I just >> want the crawler to respect robots.txt to avoid wasting traffic on >> nonsensical URIs. > > Das ist genau dann ein valides Argument, wenn die Menge an unnötig > generiertem Traffic signifikant groß ist. Nö, es kann auch sein, dass gewisse URLs mit Funktionen verknüpft sind. Eigentlich sollte man in solchen Fällen zwar POST Requests verwenden, dann müsste der Entwickler aber wissen, wie man das am besten implementiert. So ist hier im Forum beispielsweise u.a. die Meldefunktion ein mit einem simplen Link/GET Request gelöst. Diese sind dann in der robots.txt gelistet: > Disallow: /topic/unlock/ > Disallow: /topic/lock/ > Disallow: /topic/move/ > Disallow: /topic/delete_post/ > Disallow: /topic/report_post/ Ist aber schon schön blöd, wenn immer mal wieder ein crawler meint, die robots.txt ignorieren, und alle Beiträge in jedem Thread melden zu müssen. Zum glück funktioniert die Berechtigungsprüfung bei den Lösch Links richtig, sonst wäre das Forum bei der "Archivierung" längst gelöscht worden.
DPA schrieb: > Diese sind dann in der robots.txt gelistet: >> Disallow: /topic/unlock/ >> Disallow: /topic/lock/ >> Disallow: /topic/move/ >> Disallow: /topic/delete_post/ >> Disallow: /topic/report_post/ > > Ist aber schon schön blöd, wenn immer mal wieder ein crawler meint, die > robots.txt ignorieren, und alle Beiträge in jedem Thread melden zu > müssen. Wie sollte das passieren? Der Crawler ist ein nicht eingeloggter Benutzer. Also würde er denn "report" Link gar nicht erst vorfinden. Den bekommt man doch nur wenn man eingeloggt ist.
Mark B. schrieb: > Wie sollte das passieren? Der Crawler ist ein nicht eingeloggter > Benutzer. Also würde er denn "report" Link gar nicht erst vorfinden. Den > bekommt man doch nur wenn man eingeloggt ist. Korrekt. Dito auch mit den Mod und Admin-URLs. Die stehen auch nirgends. > Cylord hat doch klargestellt wie es > richtig ablief! Wie es ablief kann jeder im verlinkten Beitrag in der E-Mail nachlesen.
Cyblord -. schrieb: >> Fakt ist, Andreas hat hier das Hausrecht! > > Fakt ist, jemand stellt Inhalte ÖFFENTLICH EINSEHBAR ins Netz. D.h. > jeder kann und DARF diese Inhalte auch ansehen. Egal was in einer > Robots.txt steht. > Was man nicht möchte dass es gesehen und evt. gespeichert wird, sollte > man nicht öffentlich ins Netz stellen. So viel zu den Fakten. Er hat trotzdem das Hausrecht hier :-D Egal was in der robots.txt steht
Alex W. schrieb: > Er hat trotzdem das Hausrecht hier :-D > Egal was in der robots.txt steht Das spielt aber im Bezug auf Crawler überhaupt keine Rolle. Das ist so relevant als wenn der Mond gar nicht wirklich aus Käse wäre.
Cyblord -. schrieb: > Das ist so > relevant als wenn der Mond gar nicht wirklich aus Käse wäre. Ob der Mond nun nicht aus Käse ist, ist so unrelevant das Andreas dennoch das Hausrecht hat.
Lustig an dem ganzen Zirkus ist ja, dass die Waybackler dadurch, dass sie eine simple Bitte ums Respektieren der robots.txt mit Komplettausschluss beantworten, ihrem selbst postulierten Anspruch, das Internet so abzubilden, wie es zum entsprechenden Zeitpunkt war, viel weniger nachkommen, als wenn sie einfach der Bitte nachgekommen wären.
Jörg W. schrieb: > Lustig an dem ganzen Zirkus ist ja, dass die Waybackler dadurch, dass > sie eine simple Bitte ums Respektieren der robots.txt mit > Komplettausschluss beantworten, ihrem selbst postulierten Anspruch, das > Internet so abzubilden, wie es zum entsprechenden Zeitpunkt war, viel > weniger nachkommen, als wenn sie einfach der Bitte nachgekommen wären. Was sollen sie denn tun? Sie haben beschlossen keine robots.txt mehr zu beachten. Das ist nunmal jetzt Fakt. Warum ist egal. Wenn jetzt jemand aber darauf pocht, was ist die Alternative aus deiner Sicht?
Cyblord -. schrieb: > Wenn jetzt jemand aber darauf pocht, was ist die Alternative aus deiner > Sicht? Sie hätten ja zumindest eine whitelist pflegen können für Sites, bei denen sie robots.txt akzeptieren. So, wie es ist, müssen sie ja schließlich auch schon eine blacklist pflegen von Sites, bei denen sie unerwünscht sind, der Aufwand bliebe also gleich. Ich finde die Diskrepanz zwischen ihrem Anspruch und der aus ihrem tatsächlichen Verhalten resultieren Realität halt fraglich. robots.txt ist erst einmal ein Standard. Der ist ja nicht von Webseitenbetreibern initiiert worden, sondern von den Betreibern der Crawler, aus der Erkenntnis heraus, dass es gute Gründe geben kann, bestimmte Bereiche von Crawlern auszuschließen. Gewissermaßen eine freiwillige Selbstverpflichtung. Wenn man sich als Betreiber eines Crawlers entschließt, den zu ignorieren (statt ihn lieber sinnvoll zu erweitern, wenn er nicht adäquat ist), muss man schon ziemlich gute Gründe haben. Sie geben vor, welche zu haben, aber das, was sie am Ende stattdessen tun, widerspricht ihren eigenen Behauptungen. Damit ist das für mich unsinnige Sturheit.
Cyblord -. schrieb: > Was sollen sie denn tun? Sie haben beschlossen keine robots.txt mehr zu > beachten. Hier wird doch versucht eine erzieherische Rueckkopplung einzufuehren (Strafe). Das Ziel ist offensichtlich, es soll die Seitenbetreiber dazu bewegen nachzugeben. Die Strafe erhalten sie aufrecht obwohl sie sich selbst damit schaden. > Das ist nunmal jetzt Fakt. Warum ist egal. Wenn man sich in den Fuss schiesst, gibt es kein zurueck mehr. In diesem Fall waere es aber einfach vom eigenen Beschluss die klitzekleine Ausnahme zu machen, zumindest auf Verlangen die Robot.txt zu respektieren. Verlorenes Vertrauen ist aber erstmal weg...
Mark B. schrieb: > Wie sollte das passieren? Der Crawler ist ein nicht eingeloggter > Benutzer. Also würde er denn "report" Link gar nicht erst vorfinden. Doch, kann er. Nur weil du die nicht siehst, heisst es nicht, dass sie nicht da sind. Log dich mal aus und blende sie ein: javascript:(void(document.head.innerHTML+='<style>.menuitem{display:inli ne-block !important;}</style>')) Scheint aber tatsächlich bei dem Link auch eine Benutzerprüfung eingebaut zu sein, ist mir vorher gar nie aufgefallen.
Vermutlich ist es einfacher, die Links generell zu generieren und dann nur je nach Nutzerstatus per CSS sichtbar oder unsichtbar zu machen. Weil oben POST genannt worden ist: dann bräuchte man ja statt eines simplen Links jeweils ein <form> mit Button drin. Das ist nicht nur viel mehr Traffic (für jeden!), sondern m.M.n. auch im UI viel aufdringlicher.
Jörg W. schrieb: > Vermutlich ist es einfacher, die Links generell zu generieren und dann > nur je nach Nutzerstatus per CSS sichtbar oder unsichtbar zu machen. Wenn man sich so an möglichem unnötigen Traffic aufhängt, sollte man vielleicht nicht den einfachten weg gehen sondern inaktive Links auch erst gar nicht generieren. Damit erledigen sich solche Probleme dann von selbst und ganz ohne robots.txt. > Weil oben POST genannt worden ist: dann bräuchte man ja statt eines > simplen Links jeweils ein <form> mit Button drin. Das ist nicht nur viel > mehr Traffic (für jeden!), sondern m.M.n. auch im UI viel > aufdringlicher. Aber von AJAX hast du schonmal gehört? Da kann man GET und POST requests senden soviel man lustig ist. Völlig ohne <form> Tags oder irgendeinen impact auf die UI.
:
Bearbeitet durch User
Jörg W. schrieb: > Weil oben POST genannt worden ist: dann bräuchte man ja statt eines > simplen Links jeweils ein <form> mit Button drin. Ein Form pro Beitrag, oder gar alle Beiträge, genügt. Submit Button unterstützen das action attribut. > Das ist nicht nur viel mehr Traffic (für jeden!) Oh schlimm, 18 Zeichen mehr pro link, sofern man ignoriert, dass man die Beitrags ID nur noch einmal hinschreiben muss, statt bei jedem Link. > sondern m.M.n. auch im UI viel aufdringlicher. 11 Zeilen CSS und man kann keinen Unterschied mehr sehen. Demo: https://jsfiddle.net/j6k8cvtd/1/
Jörg W. schrieb: > Damit ist das für mich unsinnige Sturheit. Das freilich ist etwas, womit sich der Forenbetreiber exzellent auskennt. Wenn man so sieht, dass manche Änderung schon von vielen Benutzern gewünscht wurde, aber nie kam...
:
Bearbeitet durch User
Ebenso könnte man deine jahrelanges Insistieren auf bestimmte Veränderungen als Sturheit betrachten. ;-)
Cyblord -. schrieb: > Aber von AJAX hast du schonmal gehört? Meiner Erinnerung nach funktioniert das Forum derzeit zumindest grundlegend (wenngleich unter Verzicht auf einige Komfort-Funktionen) auch komplett ohne Javascript. "Beitrag melden" würde dann beispielsweise einfach den Beitrag melden, ohne nochmal rückzufragen. Das wäre mit AJAX, so wie ich es verstehe (Web-Programmierung ist nicht mein Metier) nicht mehr der Fall.
A. K. schrieb: > Ebenso könnte man deine jahrelanges Insistieren auf bestimmte > Veränderungen als Sturheit betrachten. ;-) Schon. Nur ich bin nicht derjenige, der einen Thread "Wunschliste & Verbesserungsvorschläge" eröffnet hat, um die darin enthaltenen Vorschläge seit über drei Jahren im Wesentlichen zu ignorieren.
Mark B. schrieb: > A. K. schrieb: >> Ebenso könnte man deine jahrelanges Insistieren auf bestimmte >> Veränderungen als Sturheit betrachten. ;-) > > Schon. Nur ich bin nicht derjenige, der einen Thread "Wunschliste & > Verbesserungsvorschläge" eröffnet hat, um die darin enthaltenen > Vorschläge seit über drei Jahren im Wesentlichen zu ignorieren. Punkt für Dich!
> Aber rumgenörgelt. Reicht hier doch auch für ne Löschung von Posts.
Take it easy :-)
Lerne Englisch, lerne Russisch, usw.
Fremdsprachen sind immer gut - Du wirst auch anderswo im www fündig, ist
halt so.
Ich habe mich nochmal mit archive.org in Verbindung gesetzt, die ungewollte Sperre wurde jetzt wieder aufgehoben. Interessant übrigens dass offensichtlich trotz Sperre weiter archiviert wurde: https://web.archive.org/web/*/mikrocontroller.net
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.