Hallo, ich habe eine generelle Frage um Verständnis der Berechnung von Mel Frequency Cepstral Coefficients (MFCC). Nach den Unterlagen die ich gefunden habe, wird ein ca. 30ms langer Audiostream was bei einer Sample rate von 16kHz 480 Samples entricht in 39 Koeffizienten überführt. Dazu sind folgende Schritte notwendig: Pre-Emphais: Verstärkung des hochfrequenten Anteils mittels FIR. Windowing: mittles Hamming oder Hanning window 512 point FFT (Zero padding mit 32 Nullen, FFT-Ergebnis ist symmetrisch so dass lediglich 256 komplexe Werte für den nächsten Schritt benötigt werden. DC-offset könnte eigentlich weggelassen werden.) Bildung des Betragsquadrats (256 komplexe Werte werden in 256 reelle positive Werte überführt) Mel Filterung: (Die 256 reellen Werte werden mit z.B. 40 Bandpässen multipliziert, wobei jede „Filterung“ lediglich einen Wert ergibt. Multiplikation im Frequenzbereich entspricht ja Faltung im Zeitbereich) Bildung des natürlichen Logarithmus der gefilterten 40 Werte. Transformation mittels diskreter Kosinus Transformation wobei lediglich die ersten 13 Werte verwendet werden und die restlichen 27 ignoriert werden. Bildung der ersten und zweiten Ableitung in Bezug auf vorherige und „zukünftige“ Koeffizienten. MFCC besteht aus 39 Werten wobei die letzten 26 Werte sich aus den Ableitungen ergeben. Somit ist ein MFCC weit davon entfernt ein Tonsignal zu sein und kann nicht als sinnvolles Tonsignal wiedergegeben werden. Stimmt das so?
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.