mikrocontroller.net

Forum: Digitale Signalverarbeitung / DSP Verständisfrage zu MFCC


Autor: PeteH (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Hallo,
ich habe eine generelle Frage um Verständnis der Berechnung von Mel 
Frequency Cepstral Coefficients (MFCC). Nach den Unterlagen die ich 
gefunden habe, wird ein ca. 30ms langer Audiostream was bei einer Sample 
rate von 16kHz 480 Samples entricht in 39 Koeffizienten überführt. Dazu 
sind folgende Schritte notwendig:

Pre-Emphais: Verstärkung des hochfrequenten Anteils mittels FIR.

Windowing: mittles Hamming oder Hanning window

512 point FFT (Zero padding mit 32 Nullen, FFT-Ergebnis ist symmetrisch 
so dass lediglich 256 komplexe Werte für den nächsten Schritt benötigt 
werden. DC-offset könnte eigentlich weggelassen werden.)

Bildung des Betragsquadrats (256 komplexe Werte werden in 256 reelle 
positive Werte überführt)

Mel Filterung: (Die 256 reellen Werte werden mit z.B. 40 Bandpässen 
multipliziert, wobei jede „Filterung“ lediglich einen Wert ergibt. 
Multiplikation im Frequenzbereich entspricht ja Faltung im Zeitbereich)

Bildung des natürlichen Logarithmus der gefilterten 40 Werte.

Transformation mittels diskreter Kosinus Transformation wobei lediglich 
die ersten 13 Werte verwendet werden und die restlichen 27 ignoriert 
werden.

Bildung der ersten und zweiten Ableitung in Bezug auf vorherige und 
„zukünftige“ Koeffizienten.

MFCC besteht aus 39 Werten wobei die letzten 26 Werte sich aus den 
Ableitungen ergeben.

Somit ist ein MFCC weit davon entfernt ein Tonsignal zu sein und kann 
nicht als sinnvolles Tonsignal wiedergegeben werden.

Stimmt das so?

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.
Hinweis: der ursprüngliche Beitrag ist mehr als 6 Monate alt.
Bitte hier nur auf die ursprüngliche Frage antworten,
für neue Fragen einen neuen Beitrag erstellen.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.