Machine Learning Korrelationsanalyse in Ereignislog

von A. S. (rava)

15.08.2017 10:42

Lesenswert?

•

Hi,

ich habe ein Ereignislog, also eine Datenbank mit N Ereignissen und 
dazugehörigen Zeitpunkten.

Beispiel

Ereignis A: nicht aufgegessen
04.2017, 18:14
04.2017, 12:42
04.2017, 13:03
Ereignis B: Regenschirm eingepackt
04.2017, 19:00
04.2017, 8:05
Ereignis C: es beginnt zu regnen
04.2017, 5:12
04.2017, 7:20


Ich kann annehmen, dass es eine Kausalität zwischen manchen Ereignissen 
gibt - ähnlich wie in einem Bayeschen Netzwerk.
https://de.wikipedia.org/wiki/Bayessches_Netz

Ich würde aber noch gerne eine zeitliche Komponente mit einfließen 
lassen:
Mein Modell könnten also 2^N Wahrscheinlichkeitsdichtefunktionen in 
Abhängigkeit von der Zeitdifferenz t sein, die angeben, mit welcher 
Verzögerung das jeweilige Ereignis auf das andere folgt. Die 
Dichtefunktionen müssten für t<0 abeschnitten sein, wie z.B. 
Exponentialverteilungen oder skalierte Betaverteilungen. Außerdem müsste 
nicht gegeben sein, dass die Verteilungen zu 1 integrieren, weil es ja 
sein könnte, dass das Folgeereignis niemals eintritt und keine 
Korrelation besteht.

Eine andere Möglichkeit wären 2^N/2 Verteilungen, wobei eine Verteilung 
Kausalitäten in beide Richtungen abbildet.


Schonmal von einer solchen Problemstellung gehört?
Ist die Fragestellung überhaupt realistisch zu beantworten oder braucht 
man viel zu viele Daten, um die ganzen Parameter ordentlich schätzen zu 
können?

Effektiv geht's mir nicht darum, irgendwelche Erwartungswerte und 
Varianzen für diese zeitlichen Verteilungen zu finden. Wichtig sind 
zunächst nur die Korrelationen an sich. Aber bin mir sicher, das Modell 
muss die zeitliche Komponente irgendwie berücksichtigen, um 
Ursache-Wirkung abbilden zu können - gerade wenn die Daten sehr dicht 
sind und sich verschiedene Ursache-Wirkungs-Gruppen überlagern.

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrelationsanalyse in Ereignislog

von Possetitjel (Gast)

15.08.2017 19:57

Lesenswert?

•

▲
▼

A. S. schrieb:

> Effektiv geht's mir nicht darum, irgendwelche
> Erwartungswerte und Varianzen für diese zeitlichen
> Verteilungen zu finden. Wichtig sind zunächst nur
> die Korrelationen an sich.

Das wird man nicht trennen können.

Ansonsten besteht auch eine Kausalität zwischen
Mord und Niederschlag: Nachdem ein Mord passiert
ist, kommt garantiert irgendwann wieder mal regen.
Und wenn man fünf Jahre warten muss...

> Aber bin mir sicher, das Modell muss die zeitliche
> Komponente irgendwie berücksichtigen, um
> Ursache-Wirkung abbilden zu können - gerade wenn
> die Daten sehr dicht sind und sich verschiedene
> Ursache-Wirkungs-Gruppen überlagern.

Hmm.
Als erste Annäherung könntest Du eine Art verschobene
Summenverteilung konstruieren. Angenommen, Du vermutest,
dass die Weigerung, das Mittagessen aufzuessen, die
Ursache für den Beginn von Regen ist. Angenommen weiter,
Du hast eine Zeitreihe, bei der jede Minute festgestellt
wird, ob es regnet (1) oder nicht (0).
Auszerdem hast Du die Zeitpunkte aller N Mahlzeiten, die
nicht aufgegessen wurden.

Dann erstellst Du eine Tabelle, in die die 0-1-Folge, die
den Regen repräsentiert, N mal eingetragen wird -- aber
jedes Mal zeitlich so verschoben, dass die nächste nicht
komplett verzehrte Mahlzeit im Ursprung liegt. (Kann man
verstehen, was ich meine?)
Dann summierst Du für jede Minute Zeitdifferenz auf, wie
oft es geregnet hat.

Wenn es - angenommen - IMMER genau drei Studen nach einem
nicht aufgegessenen Mittagessen regnet, dann ist die
akkumulierte Regenhäufigkeit in Zeile 180 gleich N.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrelationsanalyse in Ereignislog

von A. S. (rava)

15.08.2017 20:15

Lesenswert?

•

▲
▼

hmm also du meinst, wenn ich zwei Ereignistypen A und B habe, wobei 
Ereignis A N_A mal eintrat und Ereignis B N_B mal eintrat,

dass man dann alle t-Werte > 0 für die möglichen Paare N_A x N_B 
berechnet und darauf die Verteilung aufbaut?

Das erescheint mir ganz geschickt, weil es die Form der Verteilungen 
annähert - auch wenn es ziemlich lange rechnen muss.

Was aber dann doch fehlt, ist die Stärke der Korrelation, oder? Ich 
kriege wohl eine pdf-Kurve und grioße Varianz darin zeigt mir irgendwie 
eine schwache Korrelation.
Aber die Randbedingung dass das Integral unter diesen Kurven nicht 1 
ist, erfordert noch mehr Wissen, um die Unterbestimmung wegzubekommen, 
oder?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrelationsanalyse in Ereignislog

von Fragi (Gast)

05.11.2017 03:17

Lesenswert?

•

▲
▼

A. S. schrieb:
> Was aber dann doch fehlt, ist die Stärke der Korrelation, oder? Ich
> kriege wohl eine pdf-Kurve und grioße Varianz darin zeigt mir irgendwie
> eine schwache Korrelation.
Was bitte bedeutet in diesem Zusammenhang "PDF"-Kurve?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrelationsanalyse in Ereignislog

von Jan (Gast)

05.11.2017 23:12

Lesenswert?

•

▲
▼

Probability density function oder halt Wahrscheinlichtsdichtefunktion

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net