Forum: PC-Programmierung Email Archiv


von Ole L. (olel)


Lesenswert?

Hallo,

ich bin gerade dabei ein wenig mit machinelearing zu spielen, und gerade 
angefangen einen Spam-Detector zu schreiben. Allerdings brauche ich nun 
medien um ihn anzulernen. Hat vielleich irgendjemand eine Idee woher ich 
an E-Mails kommen kann (Am besten ein gemisch aus realen und spam mails 
und am besten vieeele) und ich bräuchte auch die gesamten Mails (also 
mit header und gedöns)

(Wer denkt, dass ich nur Daten klauen will, soll mal hier schaun: 
https://github.com/olell/pyspam)

Grüße Ole

von GoMaD A. (gomad_a)


Lesenswert?


von Ole L. (olel)


Lesenswert?

Was soll mir das bringen? Ich bin auf der suche nach einem Archiv von 
Emails nicht nach einem Provider

von Vlad T. (vlad_tepesch)


Lesenswert?

Ole L. schrieb:
> Was soll mir das bringen? Ich bin auf der suche nach einem Archiv
> von
> Emails nicht nach einem Provider

leg eine neue adresse an, und gib sie an möglichst vielen stellen im 
Netz an. binnen weniger Tage hast du eine gute Liste an Spam.

Als Nicht-Spam kannst du doch dein persönliches Archiv benutzen.


Edit:
http://stackoverflow.com/questions/4743996/publicly-available-spam-filter-training-set

: Bearbeitet durch User
von Ole L. (olel)


Lesenswert?

Vielen dank, nach sowas wie dem Spam Archive habe ich gesucht.

von GoMaD A. (gomad_a)


Lesenswert?

Mailinator kannst dir einfach ein Postfach nehmen (z.b. test @ 
mailinator.com  admin @ mailinator.com oder irgendwas anderes) die sind 
voll mit zig Mails und du kannst auch via POP oder halt Webinterface 
zugreifen.

Genau das was du wolltest und genau für solche zwecke gedacht.

: Bearbeitet durch User
von Vlad T. (vlad_tepesch)


Lesenswert?

GoMaD A. schrieb:
> Genau das was du wolltest und genau für solche zwecke gedacht.

naja, die sind dafür da temporär was empfangen zu können, wo man ahnt, 
dass ein haufen Spam hinterher kommt.

Das heißt im Umkehrschluss, dass da auch mails dabei sind, die man nicht 
als spam klassifizieren möchte

von GoMaD A. (gomad_a)


Lesenswert?

Ole L. schrieb:
> Am besten ein gemisch aus realen und spam mails
> und am besten vieeele

Vlad T. schrieb:
> Das heißt im Umkehrschluss, dass da auch mails dabei sind, die man nicht
> als spam klassifizieren möchte

Also genau was er wollte. Oder sehe ich was falsch?

von Vlad T. (vlad_tepesch)


Lesenswert?

GoMaD A. schrieb:
> Also genau was er wollte. Oder sehe ich was falsch?

sicher nicht, aber wo sind die Labels?

sicher brauchst du beides, aber am besten schon vor-kategorisiert.

von GoMaD A. (gomad_a)


Lesenswert?

Vlad T. schrieb:
> GoMaD A. schrieb:
>> Also genau was er wollte. Oder sehe ich was falsch?
>
> sicher nicht, aber wo sind die Labels?
>
> sicher brauchst du beides, aber am besten schon vor-kategorisiert.

Wenn die schon kategorisiert sind braucht es aber kein Script um Spam zu 
erkennen. Das ist dann nämlich schon erledigt...

von Bert3 (Gast)


Lesenswert?

>Wenn die schon kategorisiert sind braucht
>es aber kein Script um Spam zu
>erkennen. Das ist dann nämlich schon erledigt...

wie soll er denn seinen Algorithmus mit tausenden eMail trainieren - 
wenn es VORHER keine Aussage darüber gibt ob es welcher ist - wie 
stellst du dir das vor?

von Vlad T. (vlad_tepesch)


Lesenswert?

GoMaD A. schrieb:
> Wenn die schon kategorisiert sind braucht es aber kein Script um Spam zu
> erkennen. Das ist dann nämlich schon erledigt...

Ole L. schrieb:
> Allerdings brauche ich nun
> medien um ihn anzulernen.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.