Hi,
ich habe ein Ereignislog, also eine Datenbank mit N Ereignissen und
dazugehörigen Zeitpunkten.
Beispiel
1
EreignisA:nichtaufgegessen
2
01.04.2017,18:14
3
12.04.2017,12:42
4
13.04.2017,13:03
5
6
EreignisB:Regenschirmeingepackt
7
03.04.2017,19:00
8
10.04.2017,8:05
9
10
EreignisC:esbeginntzuregnen
11
02.04.2017,5:12
12
03.04.2017,17:13
13
03.04.2017,20:54
14
09.04.2017,7:20
15
10.04.2017,10:04
16
13.04.2017,18:02
Ich kann annehmen, dass es eine Kausalität zwischen manchen Ereignissen
gibt - ähnlich wie in einem Bayeschen Netzwerk.
https://de.wikipedia.org/wiki/Bayessches_Netz
Ich würde aber noch gerne eine zeitliche Komponente mit einfließen
lassen:
Mein Modell könnten also 2^N Wahrscheinlichkeitsdichtefunktionen in
Abhängigkeit von der Zeitdifferenz t sein, die angeben, mit welcher
Verzögerung das jeweilige Ereignis auf das andere folgt. Die
Dichtefunktionen müssten für t<0 abeschnitten sein, wie z.B.
Exponentialverteilungen oder skalierte Betaverteilungen. Außerdem müsste
nicht gegeben sein, dass die Verteilungen zu 1 integrieren, weil es ja
sein könnte, dass das Folgeereignis niemals eintritt und keine
Korrelation besteht.
Eine andere Möglichkeit wären 2^N/2 Verteilungen, wobei eine Verteilung
Kausalitäten in beide Richtungen abbildet.
Schonmal von einer solchen Problemstellung gehört?
Ist die Fragestellung überhaupt realistisch zu beantworten oder braucht
man viel zu viele Daten, um die ganzen Parameter ordentlich schätzen zu
können?
Effektiv geht's mir nicht darum, irgendwelche Erwartungswerte und
Varianzen für diese zeitlichen Verteilungen zu finden. Wichtig sind
zunächst nur die Korrelationen an sich. Aber bin mir sicher, das Modell
muss die zeitliche Komponente irgendwie berücksichtigen, um
Ursache-Wirkung abbilden zu können - gerade wenn die Daten sehr dicht
sind und sich verschiedene Ursache-Wirkungs-Gruppen überlagern.
A. S. schrieb:> Effektiv geht's mir nicht darum, irgendwelche> Erwartungswerte und Varianzen für diese zeitlichen> Verteilungen zu finden. Wichtig sind zunächst nur> die Korrelationen an sich.
Das wird man nicht trennen können.
Ansonsten besteht auch eine Kausalität zwischen
Mord und Niederschlag: Nachdem ein Mord passiert
ist, kommt garantiert irgendwann wieder mal regen.
Und wenn man fünf Jahre warten muss...
> Aber bin mir sicher, das Modell muss die zeitliche> Komponente irgendwie berücksichtigen, um> Ursache-Wirkung abbilden zu können - gerade wenn> die Daten sehr dicht sind und sich verschiedene> Ursache-Wirkungs-Gruppen überlagern.
Hmm.
Als erste Annäherung könntest Du eine Art verschobene
Summenverteilung konstruieren. Angenommen, Du vermutest,
dass die Weigerung, das Mittagessen aufzuessen, die
Ursache für den Beginn von Regen ist. Angenommen weiter,
Du hast eine Zeitreihe, bei der jede Minute festgestellt
wird, ob es regnet (1) oder nicht (0).
Auszerdem hast Du die Zeitpunkte aller N Mahlzeiten, die
nicht aufgegessen wurden.
Dann erstellst Du eine Tabelle, in die die 0-1-Folge, die
den Regen repräsentiert, N mal eingetragen wird -- aber
jedes Mal zeitlich so verschoben, dass die nächste nicht
komplett verzehrte Mahlzeit im Ursprung liegt. (Kann man
verstehen, was ich meine?)
Dann summierst Du für jede Minute Zeitdifferenz auf, wie
oft es geregnet hat.
Wenn es - angenommen - IMMER genau drei Studen nach einem
nicht aufgegessenen Mittagessen regnet, dann ist die
akkumulierte Regenhäufigkeit in Zeile 180 gleich N.
hmm also du meinst, wenn ich zwei Ereignistypen A und B habe, wobei
Ereignis A N_A mal eintrat und Ereignis B N_B mal eintrat,
dass man dann alle t-Werte > 0 für die möglichen Paare N_A x N_B
berechnet und darauf die Verteilung aufbaut?
Das erescheint mir ganz geschickt, weil es die Form der Verteilungen
annähert - auch wenn es ziemlich lange rechnen muss.
Was aber dann doch fehlt, ist die Stärke der Korrelation, oder? Ich
kriege wohl eine pdf-Kurve und grioße Varianz darin zeigt mir irgendwie
eine schwache Korrelation.
Aber die Randbedingung dass das Integral unter diesen Kurven nicht 1
ist, erfordert noch mehr Wissen, um die Unterbestimmung wegzubekommen,
oder?
A. S. schrieb:> Was aber dann doch fehlt, ist die Stärke der Korrelation, oder? Ich> kriege wohl eine pdf-Kurve und grioße Varianz darin zeigt mir irgendwie> eine schwache Korrelation.
Was bitte bedeutet in diesem Zusammenhang "PDF"-Kurve?