mikrocontroller.net

Forum: Digitale Signalverarbeitung / DSP Korrelationsanalyse in Ereignislog


Autor: A. S. (rava)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Hi,

ich habe ein Ereignislog, also eine Datenbank mit N Ereignissen und 
dazugehörigen Zeitpunkten.

Beispiel
Ereignis A: nicht aufgegessen
01.04.2017, 18:14
12.04.2017, 12:42
13.04.2017, 13:03

Ereignis B: Regenschirm eingepackt
03.04.2017, 19:00
10.04.2017, 8:05

Ereignis C: es beginnt zu regnen
02.04.2017, 5:12
03.04.2017, 17:13
03.04.2017, 20:54
09.04.2017, 7:20
10.04.2017, 10:04
13.04.2017, 18:02

Ich kann annehmen, dass es eine Kausalität zwischen manchen Ereignissen 
gibt - ähnlich wie in einem Bayeschen Netzwerk.
https://de.wikipedia.org/wiki/Bayessches_Netz

Ich würde aber noch gerne eine zeitliche Komponente mit einfließen 
lassen:
Mein Modell könnten also 2^N Wahrscheinlichkeitsdichtefunktionen in 
Abhängigkeit von der Zeitdifferenz t sein, die angeben, mit welcher 
Verzögerung das jeweilige Ereignis auf das andere folgt. Die 
Dichtefunktionen müssten für t<0 abeschnitten sein, wie z.B. 
Exponentialverteilungen oder skalierte Betaverteilungen. Außerdem müsste 
nicht gegeben sein, dass die Verteilungen zu 1 integrieren, weil es ja 
sein könnte, dass das Folgeereignis niemals eintritt und keine 
Korrelation besteht.

Eine andere Möglichkeit wären 2^N/2 Verteilungen, wobei eine Verteilung 
Kausalitäten in beide Richtungen abbildet.


Schonmal von einer solchen Problemstellung gehört?
Ist die Fragestellung überhaupt realistisch zu beantworten oder braucht 
man viel zu viele Daten, um die ganzen Parameter ordentlich schätzen zu 
können?

Effektiv geht's mir nicht darum, irgendwelche Erwartungswerte und 
Varianzen für diese zeitlichen Verteilungen zu finden. Wichtig sind 
zunächst nur die Korrelationen an sich. Aber bin mir sicher, das Modell 
muss die zeitliche Komponente irgendwie berücksichtigen, um 
Ursache-Wirkung abbilden zu können - gerade wenn die Daten sehr dicht 
sind und sich verschiedene Ursache-Wirkungs-Gruppen überlagern.

Autor: Possetitjel (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
A. S. schrieb:

> Effektiv geht's mir nicht darum, irgendwelche
> Erwartungswerte und Varianzen für diese zeitlichen
> Verteilungen zu finden. Wichtig sind zunächst nur
> die Korrelationen an sich.

Das wird man nicht trennen können.

Ansonsten besteht auch eine Kausalität zwischen
Mord und Niederschlag: Nachdem ein Mord passiert
ist, kommt garantiert irgendwann wieder mal regen.
Und wenn man fünf Jahre warten muss...

> Aber bin mir sicher, das Modell muss die zeitliche
> Komponente irgendwie berücksichtigen, um
> Ursache-Wirkung abbilden zu können - gerade wenn
> die Daten sehr dicht sind und sich verschiedene
> Ursache-Wirkungs-Gruppen überlagern.

Hmm.
Als erste Annäherung könntest Du eine Art verschobene
Summenverteilung konstruieren. Angenommen, Du vermutest,
dass die Weigerung, das Mittagessen aufzuessen, die
Ursache für den Beginn von Regen ist. Angenommen weiter,
Du hast eine Zeitreihe, bei der jede Minute festgestellt
wird, ob es regnet (1) oder nicht (0).
Auszerdem hast Du die Zeitpunkte aller N Mahlzeiten, die
nicht aufgegessen wurden.

Dann erstellst Du eine Tabelle, in die die 0-1-Folge, die
den Regen repräsentiert, N mal eingetragen wird -- aber
jedes Mal zeitlich so verschoben, dass die nächste nicht
komplett verzehrte Mahlzeit im Ursprung liegt. (Kann man
verstehen, was ich meine?)
Dann summierst Du für jede Minute Zeitdifferenz auf, wie
oft es geregnet hat.

Wenn es - angenommen - IMMER genau drei Studen nach einem
nicht aufgegessenen Mittagessen regnet, dann ist die
akkumulierte Regenhäufigkeit in Zeile 180 gleich N.

Autor: A. S. (rava)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
hmm also du meinst, wenn ich zwei Ereignistypen A und B habe, wobei 
Ereignis A N_A mal eintrat und Ereignis B N_B mal eintrat,

dass man dann alle t-Werte > 0 für die möglichen Paare N_A x N_B 
berechnet und darauf die Verteilung aufbaut?

Das erescheint mir ganz geschickt, weil es die Form der Verteilungen 
annähert - auch wenn es ziemlich lange rechnen muss.

Was aber dann doch fehlt, ist die Stärke der Korrelation, oder? Ich 
kriege wohl eine pdf-Kurve und grioße Varianz darin zeigt mir irgendwie 
eine schwache Korrelation.
Aber die Randbedingung dass das Integral unter diesen Kurven nicht 1 
ist, erfordert noch mehr Wissen, um die Unterbestimmung wegzubekommen, 
oder?

Autor: Fragi (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
A. S. schrieb:
> Was aber dann doch fehlt, ist die Stärke der Korrelation, oder? Ich
> kriege wohl eine pdf-Kurve und grioße Varianz darin zeigt mir irgendwie
> eine schwache Korrelation.
Was bitte bedeutet in diesem Zusammenhang "PDF"-Kurve?

Autor: Jan (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Probability density function oder halt Wahrscheinlichtsdichtefunktion

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.