无需脚本的动态字幕生成中的关键技术研究

致谢	第7-8页
摘要	第8-9页
ABSTRACT	第9页
第一章绪论	第15-23页
1.1 研究背景与意义	第15-18页
1.2 国内外研究现状	第18-19页
1.3 系统概述	第19-21页
1.4 论文的创新点及章节安排	第21-23页
1.4.1 本文的研究创新点	第21-22页
1.4.2 本文章节内容安排	第22-23页
第二章相关理论	第23-30页
2.1 自动语音识别	第23-27页
2.1.1 动态时间规整算法	第23-25页
2.1.2 隐马尔可夫模型	第25-27页
2.2 人脸检测与唇动分析	第27-29页
2.2.1 人脸检测	第27-28页
2.2.2 唇动分析	第28-29页
2.3 本章小结	第29-30页
第三章说话人分割聚类技术	第30-54页
3.1 引言	第30-32页
3.1.1 说话人分割聚类系统概述	第30-31页
3.1.2 本章内容安排	第31-32页
3.2 参数提取与话者建模	第32-35页
3.2.1 语音参数的提取	第32-33页
3.2.2 话者模型的建立	第33-35页
3.3 距离测度的选择与聚类停止准则	第35-38页
3.3.1 距离测度	第35-37页
3.3.2 贝叶斯判据简介	第37-38页
3.4 说话人分割	第38-44页
3.4.1 本章选用的算法	第38-40页
3.4.2 实验及分析	第40-44页
3.5 说话人聚类	第44-50页
3.5.1 本章选用的算法	第45-46页
3.5.2 实验及分析	第46-50页
3.6 分割聚类系统的实验及分析	第50-53页
3.6.1 系统的评价指标	第50-51页
3.6.2 实验及分析	第51-53页
3.7 本章小结	第53-54页
第四章人脸与字幕的匹配	第54-69页
4.1 语音序列与图像序列的预处理	第54-56页
4.2 “只有一个人说话”时的人脸与语音的匹配	第56-58页
4.3 特殊情况下的人脸与语音的匹配	第58-60页
4.4 语音盲源分离技术	第60-68页
4.4.1 ICA	第60-61页
4.4.2 FastICA	第61-62页
4.4.3 本文使用的方案	第62-63页
4.4.4 实验及分析	第63-68页
4.5 本章小结	第68-69页
第五章总结与展望	第69-71页
5.1 本文的工作总结	第69-70页
5.2 研究展望	第70-71页
参考文献	第71-77页
攻读硕士学位期间的学术活动及成果情况	第77页