Heiner schrieb:
> Richtig. Lustig ist, dass man sogar etwas völlig sinnfreies als user
> agent mitschicken kann und dann trotzdem die gewünschte Antwort bekommt.
Jein. Nicht alles. Der original User-Agent der Urllib wird vom Server
aktiv geblockt.
1 | headers={
|
2 | 'User-Agent': 'Python-urllib/2.7'
|
3 | }
|
4 | -->HTTPError: HTTP Error 403: Forbidden
|
Eine Epsilon Änderung dagegen bewirkt schon, dass die Seite ausgeliefert
wird:
1 | headers={
|
2 | 'User-Agent': 'Python-urllob/2.7'
|
3 | }
|
4 | -->geht durch
|
Das sagt uns eigentlich, dass der Webseitenbetreiber eventuell nicht
gescraped werden möchte. Die Höflichkeit gebietet es dann, vor dem
Abrufen größerer Datenmengen einmal freundlich beim Admin anzufragen.