Forum: Offtopic Cluster-Algorithmen für Sensordaten


von Ano N. (oorim)


Lesenswert?

Hallo Zusammen!

Ich versuche zunächst das Problem zu umschreiben (wie auch schon mit 
diesem Text in einem anderen Forum):

Aus einer Anlage werden über mehrere Tage hinweg Daten mit einer 
Abtastrate von 1S/(2sec) abgetastet. Insgesamt werden 400 Sensoren 
abgetastet.

Das da eine große Datenmenge zusammenkommt ist klar. Deshalb arbeiten 
wir mit zwei Programmen: Das erste programmiert sich wie LabView (ist 
aber ein anderes) und erlaubt die Verbindung mit der Anlage via OPC und 
schreibt in ein Excel File. Die zweite Software dient dann der 
Datenauswertung und auch anderem. Bei der Datenauswertung bedienen wir 
uns der Korrelationsanalyse und dem Clustering.

Das Clustering wenden wir jeweils auf einen Datensatz (einen Satz 
Sensordaten) an um die Datenmenge zu komprimieren.

Soweit so gut. Nun kam mir die Idee: Das muss doch auch Online, also 
wärend der Datenakquise, gehen! Immerhin gibt es in unserer 
Datenakquise-Software ja auch "User DLL Blöcke" die sich mit C 
programmieren lassen.

Eine kurze Recherche ergab das es tatsächlich solche Algorithmen gibt. 
Mehrere sogar. Der häufigste Treffer war der "sequentielle k-Means", der 
aber wohl nicht variabel mit der Cluster Anzahl ist, und der zweit 
häufigste nennt sich "Neuronengas Wolke". Ich vermute, dass bei uns die 
Anzahl der Cluster 1 ist - denn entweder ist der Abstand der Datenpunkte 
zueinander klein oder eben nicht. Identische Daten sind redundant und 
können entfernt werden.

Aber: Wir reden hier von Sensoren und die haben einen Messbereich und 
einen Fehlerbereich. Muss ich den nicht berücksichtigen? Und mit welchem 
Algorithmus schaff ich das? Schafft der seq. k-Means das?

Der Hersteller der Software schreibt zum Thema Clusteralgorithmus, dass 
die Software die wir verwenden über einen speziellen Clusteralgorithmus 
verfügt und das herkömmliche Algorithmen allen Größen den gleichen 
Fehlerradius zuordnen würden und so weder der Messfehler als 
Anhaltspunkt für die Identität zweier Werte noch die gezielte 
Beeinflussung des Clusterverfahrens möglich sind.

Für sachdienliche Hinweise bin ich dankbar

Grüße

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.