Hallo Forumskollegen, Ich habe Datensätze, wobei ein Datensatz aus 8 Messwerten (Double Werte) besteht. Nun möchte ich die Ähnlichkeit der Datensätze zu einem bestimmten Datensatz berechnen. Beispiel: Data_0: 130.3, 2.0, 1.0, 1.0, 2.5, 3.0, 4.0, 8.0 Data_1: 120.5, 3.4, 4.2, 1.0, 3.5, 4.4, 0.0, 7.0 Data_2: 144.6, 2.7, 1.2, 3.3, 4.8, 2.1, 3.3, 1.2 Ich möchte nun z.B. berechnen, ob Data_1 oder Data_2 dem Datensatz Data_0 ähnlicher ist. Was auch noch wichtig ist: Die Wertebereiche der Messwerte innerhalb eines Datensatzes sind unterschiedlich. Ich bin derzeit etwas ratlos, wie ich das am Besten lösen soll. Habt Ihr eventuell irgendwelche Vorschläge, Verfahren wie man das lösen könnte? Vielen Dank für Eure Hilfe! Max
1. Definiere: "was ist ähnlich" 2. Berechne das für alle n*n Paare (wobei auf den Diagonalen jeweils ein Satz zu sich selbst ähnlich ist, also eigentlich nicht gerechnet werden muß)
Zur Frage was ist ähnlich: das kannst nur du wissen. Es gibt da mehrere Möglichkeiten: - Bei jeder Paarung einfach die Beträge der Differenzen summieren, hoher Wert = unähnlich - Bei jeder Paarung die Quadrate der Differenzen summieren (Betrag nicht nötig, starke Abweichung einzelner Werte schlagen stärker durch) - ggf. mit Gewichtung der Werte, also z.B. wenn die Werte der ersten Spalte nicht so stark eingehen sollen wie die der zweiten, dann die Quadrate der zweiten Spalte mit einem höheren Wert multiplizieren
PS: man muß ja gar nicht für alle n*n Paare rechnen, sondern neben der Diagonale (a<->a, b<->b, c<->c, ...) entfällt weiterhin eine komplete Hälfte, weil a<->b ja den gleichen Wert liefern sollte wie b<->a.
Hallo Klaus, Danke für deine raschen Antworten. Da hast du recht, dass "Ähnlichkeit" genauer definiert werden müsste. Eine Gewichtung muss ich auf jeden Fall einführen. Ich werde mir jetzt weitere Gedanken machen und mich gegebenenfalls nochmals melden. Vielen Dank Max
kann man davon ausgehen, dass die besagten unterschiedlichen Messbereiche des Datensatzes pro Spalte dieselben sind? Dann hilft vielleicht eine spaltenweise Standardabweichung (Fehlerstreuung um den Mittelwert)? So lässt sich zumindest spaltenweise eine Aussage treffen
Ich würde die räumliche Distanz der Punkte berechnen, also die Differenzen in jeder Dimension quadrieren, alles addieren und am Ende nochmal die Wurzel über alles. Ein Mathematiker könnte da jetzt ein schöne Formel draus machen, bin ich aber nicht :-)
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.