语音驱动虚拟说话人研究

摘要	第6-7页
Abstract	第7-8页
第1章绪论	第11-18页
1.1 研究背景及意义	第11-12页
1.2 国内外研究现状	第12-15页
1.2.1 虚拟人面部动画技术的研究现状	第12-13页
1.2.2 语音驱动动画技术的研究现状	第13-15页
1.3 研究目标及内容	第15-16页
1.3.1 研究目标	第15页
1.3.2 研究内容	第15-16页
1.4 本文组织结构	第16-18页
第2章深度神经网络	第18-24页
2.1 深度神经网络概述	第18页
2.2 基于深度神经网络的声视觉映射	第18-23页
2.2.1 深度置信网络	第19页
2.2.2 受限的玻尔兹曼机	第19-21页
2.2.3 RBM的生成训练	第21-22页
2.2.4 堆砌RBM成DBN	第22页
2.2.5 微调DNN网络	第22-23页
2.3 本章小结	第23-24页
第3章声视觉语料库的构建	第24-31页
3.1 MNGU0数据库	第24-25页
3.2 LIPS2008数据库	第25-30页
3.2.1 语音特征参数的提取	第25页
3.2.2 人脸动画参数的提取	第25-29页
3.2.3 声视觉语料库的构建	第29-30页
3.3 本章小结	第30-31页
第4章语音驱动发音器官运动合成	第31-41页
4.1 基于深度神经网络的声视觉映射	第31-32页
4.1.1 网络结构的搭建	第31-32页
4.1.2 网络结构的实验参数	第32页
4.2 发音器官模型的运动合成	第32-34页
4.2.1 发音器官模型	第32-33页
4.2.2 计算控制量oos、zt和jaw	第33-34页
4.3 实验结果与分析	第34-40页
4.3.1 实验评价方法	第34-35页
4.3.2 ANN和DNN实验结果的对比	第35-38页
4.3.3 上下文的长度对实验结果的影响	第38-39页
4.3.4 唇部动画评价结果	第39-40页
4.4 本章小结	第40-41页
第5章基于MPEG-4的语音驱动虚拟说话人动画合成	第41-55页
5.1 系统总体设计	第41-42页
5.2 声视觉映射模型的建立	第42-45页
5.2.1 口型特征参数	第42-44页
5.2.2 声视觉映射模型建立与优化	第44-45页
5.3 口型动画合成	第45-46页
5.4 系统界面及各模块介绍	第46-48页
5.4.1 系统界面	第46-47页
5.4.2 模块介绍	第47-48页
5.5 实验结果与分析	第48-53页
5.5.1 实验评价方法	第48页
5.5.2 声视觉映射结果	第48-51页
5.5.3 口型动画的合成与评价	第51-53页
5.5.4 个性化头部模型构建与动画合成	第53页
5.6 本章小结	第53-55页
结论	第55-56页
致谢	第56-57页
参考文献	第57-62页
攻读硕士学位期间发表的论文及科研成果	第62页