梅尔倒谱系数特征（Mel-frequency cepstral coefficients，MFCC）

引言

感知实验表明，人耳对于声音信号的感知聚焦于某一特定频率区域内，而非在整个频谱包络中。耳蜗的滤波作用是在对数频率尺度进行的，在1000Hz以下为线性，在1000Hz以上为对数，这就使得人耳对低频比高频更敏感。

心理物理学研究表明，人类对语音信号频率内容的感知遵循一种主观上定义的非线性尺度，该非线性标度可被称为“Mel”标度。

一般来说，声音的频率和人耳所听到的声音高低不成正比，而是与音调人们为了描述声音高低而定义的概念)成正比，声音的频率分布与临界频带分布相一致。梅尔频率标度的单位是 Mel，它是为了描绘音调而被定义出来的，它更生动地反映出了频率和音调的非线性关系。

MFCC是将人耳的听觉感知特性和语音产生机制相结合，因此目前大多数语音识别系统广泛使用这种特征。对频率轴不均匀划分是MFCC特征区别于前面普通倒谱特征的最重要的特点，变换到Mel域后，Mel带通滤波器组的中心频率是按照Mel刻度均匀排列的。

语音的MFCC特征是基于人耳感知实验得到，将人耳当成特定的滤波器，只考虑某些特定频率成分。这些滤波器是在频域上不均匀分布的。更多的滤波器聚集于低频部分，高频部分的滤波器较少。采样率16Khz时，下图实例：

MFCC是一种倒谱特征，计算意义见下图：

其中，对于声音信号，一般会进行分帧后再提取特征，利用不同的窗函数实现。

MFCC可以描述为：【Spectrum → Mel-Filters → Mel-Spectrum】

先计算当前帧数据的频谱（通过FFT）得到短时谱，再经过mel滤波器滤波，输出对数MEL能量谱，经过DCT去相关，得到MFCC系数（此时特征维数由DCT系数数目决定）。

mel三角带通滤波器有两个主要目的：对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。（因此一段语音的音调或音高，是不会呈现在 MFCC 参数内，换句话说，以 MFCC 为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响）此外，还可以降低运算量。

其中，经过对数操作之后，有同态信号处理的意思。

经过特征提取，语音信号可以通过一系列的倒谱向量表示。

亦可参考下图：