Forum: Digitale Signalverarbeitung / DSP / Machine Learning Verständisfrage zu MFCC


von PeteH (Gast)


Lesenswert?

Hallo,
ich habe eine generelle Frage um Verständnis der Berechnung von Mel 
Frequency Cepstral Coefficients (MFCC). Nach den Unterlagen die ich 
gefunden habe, wird ein ca. 30ms langer Audiostream was bei einer Sample 
rate von 16kHz 480 Samples entricht in 39 Koeffizienten überführt. Dazu 
sind folgende Schritte notwendig:

Pre-Emphais: Verstärkung des hochfrequenten Anteils mittels FIR.

Windowing: mittles Hamming oder Hanning window

512 point FFT (Zero padding mit 32 Nullen, FFT-Ergebnis ist symmetrisch 
so dass lediglich 256 komplexe Werte für den nächsten Schritt benötigt 
werden. DC-offset könnte eigentlich weggelassen werden.)

Bildung des Betragsquadrats (256 komplexe Werte werden in 256 reelle 
positive Werte überführt)

Mel Filterung: (Die 256 reellen Werte werden mit z.B. 40 Bandpässen 
multipliziert, wobei jede „Filterung“ lediglich einen Wert ergibt. 
Multiplikation im Frequenzbereich entspricht ja Faltung im Zeitbereich)

Bildung des natürlichen Logarithmus der gefilterten 40 Werte.

Transformation mittels diskreter Kosinus Transformation wobei lediglich 
die ersten 13 Werte verwendet werden und die restlichen 27 ignoriert 
werden.

Bildung der ersten und zweiten Ableitung in Bezug auf vorherige und 
„zukünftige“ Koeffizienten.

MFCC besteht aus 39 Werten wobei die letzten 26 Werte sich aus den 
Ableitungen ergeben.

Somit ist ein MFCC weit davon entfernt ein Tonsignal zu sein und kann 
nicht als sinnvolles Tonsignal wiedergegeben werden.

Stimmt das so?

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.