Musikverarbeitung – Spektrogramme wie im Ohr?

von A. S. (rava)

04.07.2022 10:51

Lesenswert?

•

Hallo zusammen,
ich habe mir ein neues Projekt herausgesucht: Ich möchte ein Machine
Learning System bauen, das Musikdateien analysiert und musikalische
Größen ableitet, beispielsweise (polyphone) Tonhöhen, Akkorde, vllt.
Genre oder auch den Puls/Takt der Musik.

Der Stand der Technik scheint mir noch etwas enttäuschend, aber
vielleicht ist das ja ein gutes Zeichen, und es gibt noch Dinge zu
entwickeln.

Ein paar erste Aufgaben zur Vorarbeit zeichnen sich schon ab – auch weil
es dabei sicher viel zu lernen gibt. Beispielsweise möchte ich aus einer
Audiodatei gerne mp4-Videos mit Audio und Spektrogrammen generieren, die
möglichst viele der „relevanten“ Informationen enthalten.

Aus meiner Sicht ist es „relevant“, Tonhöhen genau bestimmen zu können –
davon gibt es laut midi-protokoll max. 127, aber eine deutlich größere
Menge Obertöne kann wohl nicht schaden. Vielleicht helfen auch zwischen
den wohltemperierten Frequenzen liegende Teilschritte um später einzelne
Instrumente sauber zu identifizieren?
Und es ist dummerweise gleichzeitig relevant, eine saubere zeitliche
Auflösung, beispielsweise zur Erkennung von Notenanschlägen zu erreichen
(<1ms als Hausnummer).

Wenn man zum Vergleich über das Corti-Organ im menschlichen Innenohr
liest, lernt man von ~15000 Haarzellen, von denen jede bis zu 100
einzelne Haare (Zilien) hat. Daher könnte es ja sein, dass hier ~15000
mechanische Resonanzschwinger eine ebenso große Anzahl von Frequenzen
parallel analysieren... Das ist natürlich erstmal reine Spekulation.

So was sind jetzt eigentlich die Fragen?
1. Wavelet-Analyse oder gefensterte DFT? Habt ihr Favoriten für Musik?
Warum? Könnt ihr noch weitere Verfahren empfehlen?
2. Bei der DFT erhalte ich Phase und Amplitude. Glaubt ihr, in der Phase
sind irgendwelche musikalisch relevanten Infos enthalten? Wohl eher
nicht, oder?
3. meine Frequenzunterteilung wird logarithmisch (alle 12
Halbtonschritte verdoppelt sich die Frequenz). Gibt’s irgendwelche
Besonderheiten bei den üblichen Verfahren, falls die Frequenzskala
nichtlinear ist?
4. Das menschliche Lautstärkeempfinden ist ebenfalls logarithmisch
skaliert – Stichwort: dB. Steckt da mehr dahinter als die
Ausgangsamplituden in meinem Spektrogramm zu logarithmieren? Gerade wenn
die Frequenzskala nichtlinear ist, bin ich unsicher, ob man bei der
Berechnung nicht irgendwelche frequenzabhängige Faktoren entstehen, um
beispielsweise Leistungsdichten oder Ähnliches sauber abzubilden? Die
Frequenzabhängigkeit beim menschlichen Lautstärkeempfinden nach dB(A)
und Phone darf erstmal ignoriert werden, finde ich.
5. „exakte Tonhöhe“ vs. „zeitliche Auflösung“ sind ja eher
widersprüchliche Ziele. Kennt ihr Ansätze bei denen mehrere
Spektrogramme parallel erzeugt werden, um das Problem in den Griff zu
kriegen? Oder gibt’s dazu bessere Ideen?
6. Spricht etwas dagegen, die Wavelet- oder Fensterlänge grundsätzlich
frequenzabhängig zu gestalten? Tiefe Töne scheinen mir oft in
langsamerer Abfolge zu kommen. Außerdem „dauert“ bei 100Hz-Tönen das
Integral über eine einzige Schwingung ja bereits 10ms.
7. Was wären vielversprechende Fensterformen für Audiosignale?

https://www.inspiredacoustics.com/en/MIDI_note_numbers_and_center_frequencies

https://de.wikipedia.org/wiki/Corti-Organ

https://www.phonomigo.com/gehoer/haarzellen-im-ohr-sie-entscheiden-mit-wie-gut-wir-verstehen/