文献:Yu, C.X., Xie, L. & Hu, W.P. (2016) Feature optimization of Speech Emotion Recognition. Biomedical Science and Engineering, 9, 37-43. http://dx.doi.org/10.4236/jbise.2016.910B005. 论文原文
1.背景介绍 ¶
语音信号不仅包含语义还包含说话者的情感信息,而传统的语音处理通常会忽略这些信息,但是情感信息在语音交流中起着非常重要的作用。传统特征,例如能量(energy,E)、过零率(ZCR)、基本频率(F0)、第一共振峰(FF)、梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)、短时平均值幅度(SAM)等及其统计信息,例如最大值(Max)、最小值(Min)、均值,方差(Var)、一阶差(FOD)、变化率(RC)等通常用于识别语音情感。本文采用反向传播(Back Propagation,BP)神经网络对特征显著性进行排序,基于特征选择,将语音情感的两个新特征,即从基本频率曲线(MFCCF0)提取的MFCC特征和从短时平均幅度曲线(APSAM)提取的幅度扰动参数添加到所选特征中。高斯混合模型(GMM)用于识别语音情感。根据实验结果,两个新增特征可以有效提高识别率。
2.特征摘取(Feature Extraction): ¶
2.1传统特征(Traditional Features): ¶
首先对语音信号进行预处理,然后从每帧信号中提取特征参数,并找出它们的最大值、最小值、平均值、方差、FOD,以及F0的RC和FF的RC,总共32个传统特征。
2.2新特征: ¶
利用自相关函数法从语音信号的每一帧中提取基频参数,得到基频曲线。然后采用5点的中值滤波对该曲线进行平滑处理,将删除偏离该曲线的基本频率点。最后,从该处理曲线中提取了四阶MFCC特征参数,这是第一个新特征。接下来,提取语音信号的每个帧的SAM并获得SAM曲线。根据该曲线,可以确定出振幅摄动参数,该参数用于描述一定范围内的抖动水平。幅度扰动参数,例如幅度抖动百分比(Shim),幅度抖动(ShdB),幅度扰动商(APQ),其公式如下:
其中A表示短时间平均大小,N表示短时间平均大小数,即=1、2、∙∙∙、N。2.3基于BP神经网络的特征选择: ¶
网络输出对其输入的敏感度用于对输入特征进行排序。隐藏层的激活函数使用Sigmoid函数,而输出层的激活函数是线性函数。隐藏节点的数量为15,32个传统特征用作网络输入。然后计算每个输入的显著性值,将经过训练的10个网络的显着性值取平均值,以提高准确性。平均显著性值进行排名的结果如下所示:
3. 结果与讨论 ¶
3.1基于传统特征的识别: ¶
显著性前六个传统特征:E FOD,F0均值,MFCC均值,ZCR FOD,LPC均值和E均值。分别选择前四个,五个和六个特征参数,并使用GMM识别它们。结果如下所示:
将前五个特征(E FOD,F0均值,MFCC均值,ZCR FOD,LPC均值)组合在一起时,平均识别率达到最高79.75%,其中恐惧的识别率达到 82%,中立的识别率达到87%。如果继续增加情感特征作为输入,我们会发现单次识别率和平均识别率均下降。这证明了这五个特征涉及大量信息以区分情绪。随着所选特征的增加,特征之间的冗余和不相关增加,语音情感的识别率降低。3.2基于传统和新特征的识别: ¶
表5显示了前五个特征(E FOD,F0平均值,MFCC平均值,ZCR FOD,LPC平均值)和MFCCF0的识别结果。表6显示了前五个功能和APSAM的识别结果。表7显示了前五个功能MFCCF0和APSAM的识别结果。
4.总结 ¶
基于BP神经网络的特征选择方法,不仅方便选择各种传统特征中最有效的特征,而且减小了特征空间的维数。根据实验结果,这两个新功能可以表征某些新的情感信息,因此可以提高语音情感的识别率。