相空间重构在语音情感识别中的研究

【摘要】：随着人机交互技术的迅速发展,情感信息作为认知过程中的重要组成部分已经得到了研究学者普遍的认同和重视,而语音情感识别又是情感计算的重要组成部分,针对当前语音情感特征的不全面性和识别率不高的现状,本文做了如下研究：(1)根据语音信号本身的特征信息,从传统的声学角度出发,提取了传统的韵律情感特征(短时能量、过零率、基频)和频谱特征(MFCC),然后对提取后的特征数据进行相关统计特征的计算,其中统计特征包括了最大值、最小值、中值、方差等,并将此数据作为情感特征参数的原始特征数据集合。(2)基于语音信号发声机理的复杂性,从混沌信号的角度对语音信号进行分析,首先通过对语音信号lyapunov指数的提取,判定信号是否具有混沌性,再将语音信号进行相空间重构,通过对高维的语音信号进行分析并提取能表征语音混沌特性的情感特征参数(关联维和Kolmogorov熵),实验结果显示新特征的引入能更为全面地表征语音信号中情感状态的信息,将语音语义的信息弱化。(3)本文采用支持向量机(Support Vector Machine,简称SVM)对语音情感进行识别实验,通过传统特征,混沌特征以及融合后新的特征数据进行三组对比实验,结果表明,混沌特征的引入对识别效果有了一定的提高,但对于悲伤和平静两种情感容易混淆,基于此,对SVM识别算法中的惩罚因子和核函数参数g进行网格搜索算法的改进寻优,通过两次寻优的过程,将悲伤和平静两种状态的样本进行单独的识别实验,结果显示,二次寻优后的识别算法对于提高准确率有了很大的提高。
【关键词】：关联维 Kolmogorov熵 特征提取 网格搜索 情感识别
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TN912.3