Forum: Digitale Signalverarbeitung / DSP / Machine Learning Korrelationsanalyse in Ereignislog


von A. S. (rava)


Lesenswert?

Hi,

ich habe ein Ereignislog, also eine Datenbank mit N Ereignissen und 
dazugehörigen Zeitpunkten.

Beispiel
1
Ereignis A: nicht aufgegessen
2
01.04.2017, 18:14
3
12.04.2017, 12:42
4
13.04.2017, 13:03
5
6
Ereignis B: Regenschirm eingepackt
7
03.04.2017, 19:00
8
10.04.2017, 8:05
9
10
Ereignis C: es beginnt zu regnen
11
02.04.2017, 5:12
12
03.04.2017, 17:13
13
03.04.2017, 20:54
14
09.04.2017, 7:20
15
10.04.2017, 10:04
16
13.04.2017, 18:02

Ich kann annehmen, dass es eine Kausalität zwischen manchen Ereignissen 
gibt - ähnlich wie in einem Bayeschen Netzwerk.
https://de.wikipedia.org/wiki/Bayessches_Netz

Ich würde aber noch gerne eine zeitliche Komponente mit einfließen 
lassen:
Mein Modell könnten also 2^N Wahrscheinlichkeitsdichtefunktionen in 
Abhängigkeit von der Zeitdifferenz t sein, die angeben, mit welcher 
Verzögerung das jeweilige Ereignis auf das andere folgt. Die 
Dichtefunktionen müssten für t<0 abeschnitten sein, wie z.B. 
Exponentialverteilungen oder skalierte Betaverteilungen. Außerdem müsste 
nicht gegeben sein, dass die Verteilungen zu 1 integrieren, weil es ja 
sein könnte, dass das Folgeereignis niemals eintritt und keine 
Korrelation besteht.

Eine andere Möglichkeit wären 2^N/2 Verteilungen, wobei eine Verteilung 
Kausalitäten in beide Richtungen abbildet.


Schonmal von einer solchen Problemstellung gehört?
Ist die Fragestellung überhaupt realistisch zu beantworten oder braucht 
man viel zu viele Daten, um die ganzen Parameter ordentlich schätzen zu 
können?

Effektiv geht's mir nicht darum, irgendwelche Erwartungswerte und 
Varianzen für diese zeitlichen Verteilungen zu finden. Wichtig sind 
zunächst nur die Korrelationen an sich. Aber bin mir sicher, das Modell 
muss die zeitliche Komponente irgendwie berücksichtigen, um 
Ursache-Wirkung abbilden zu können - gerade wenn die Daten sehr dicht 
sind und sich verschiedene Ursache-Wirkungs-Gruppen überlagern.

von Possetitjel (Gast)


Lesenswert?

A. S. schrieb:

> Effektiv geht's mir nicht darum, irgendwelche
> Erwartungswerte und Varianzen für diese zeitlichen
> Verteilungen zu finden. Wichtig sind zunächst nur
> die Korrelationen an sich.

Das wird man nicht trennen können.

Ansonsten besteht auch eine Kausalität zwischen
Mord und Niederschlag: Nachdem ein Mord passiert
ist, kommt garantiert irgendwann wieder mal regen.
Und wenn man fünf Jahre warten muss...

> Aber bin mir sicher, das Modell muss die zeitliche
> Komponente irgendwie berücksichtigen, um
> Ursache-Wirkung abbilden zu können - gerade wenn
> die Daten sehr dicht sind und sich verschiedene
> Ursache-Wirkungs-Gruppen überlagern.

Hmm.
Als erste Annäherung könntest Du eine Art verschobene
Summenverteilung konstruieren. Angenommen, Du vermutest,
dass die Weigerung, das Mittagessen aufzuessen, die
Ursache für den Beginn von Regen ist. Angenommen weiter,
Du hast eine Zeitreihe, bei der jede Minute festgestellt
wird, ob es regnet (1) oder nicht (0).
Auszerdem hast Du die Zeitpunkte aller N Mahlzeiten, die
nicht aufgegessen wurden.

Dann erstellst Du eine Tabelle, in die die 0-1-Folge, die
den Regen repräsentiert, N mal eingetragen wird -- aber
jedes Mal zeitlich so verschoben, dass die nächste nicht
komplett verzehrte Mahlzeit im Ursprung liegt. (Kann man
verstehen, was ich meine?)
Dann summierst Du für jede Minute Zeitdifferenz auf, wie
oft es geregnet hat.

Wenn es - angenommen - IMMER genau drei Studen nach einem
nicht aufgegessenen Mittagessen regnet, dann ist die
akkumulierte Regenhäufigkeit in Zeile 180 gleich N.

von A. S. (rava)


Lesenswert?

hmm also du meinst, wenn ich zwei Ereignistypen A und B habe, wobei 
Ereignis A N_A mal eintrat und Ereignis B N_B mal eintrat,

dass man dann alle t-Werte > 0 für die möglichen Paare N_A x N_B 
berechnet und darauf die Verteilung aufbaut?

Das erescheint mir ganz geschickt, weil es die Form der Verteilungen 
annähert - auch wenn es ziemlich lange rechnen muss.

Was aber dann doch fehlt, ist die Stärke der Korrelation, oder? Ich 
kriege wohl eine pdf-Kurve und grioße Varianz darin zeigt mir irgendwie 
eine schwache Korrelation.
Aber die Randbedingung dass das Integral unter diesen Kurven nicht 1 
ist, erfordert noch mehr Wissen, um die Unterbestimmung wegzubekommen, 
oder?

von Fragi (Gast)


Lesenswert?

A. S. schrieb:
> Was aber dann doch fehlt, ist die Stärke der Korrelation, oder? Ich
> kriege wohl eine pdf-Kurve und grioße Varianz darin zeigt mir irgendwie
> eine schwache Korrelation.
Was bitte bedeutet in diesem Zusammenhang "PDF"-Kurve?

von Jan (Gast)


Lesenswert?

Probability density function oder halt Wahrscheinlichtsdichtefunktion

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.