| 摘要 | 第1-3页 |
| Summary | 第3-5页 |
| 目录 | 第5-7页 |
| 第一章 绪论 | 第7-11页 |
| ·语音端点检测 | 第7-8页 |
| ·传统语音识别的缺点 | 第8页 |
| ·视觉语音 | 第8-9页 |
| ·引入视觉信息的意义 | 第9页 |
| ·本文贡献 | 第9-10页 |
| ·本文的结构安排 | 第10页 |
| ·本章总结 | 第10-11页 |
| 第二章 基于听觉特征的语音端点检测 | 第11-26页 |
| ·语音信号的时域分析 | 第11-15页 |
| ·语音信号短时能量 | 第12-13页 |
| ·Window以及窗口的长度 | 第13-14页 |
| ·短时平均跨零数 | 第14-15页 |
| ·基于音频的语音端点检测常用方法 | 第15-22页 |
| ·基于能量的端点检测 | 第15-16页 |
| ·基于LPC-10声码器的端点检测 | 第16页 |
| ·基于信息熵的语音端点检测 | 第16-17页 |
| ·基于频带方差的端点检测 | 第17-20页 |
| ·基于HMM的端点检测方法 | 第20-21页 |
| ·基于分形技术的端点检测 | 第21-22页 |
| ·带噪声语音端点检测方法 | 第22-25页 |
| ·时频方差 | 第22-23页 |
| ·频域方差 | 第23-24页 |
| ·端点检测和状态转换 | 第24-25页 |
| ·本章小结 | 第25-26页 |
| 第三章 语音视觉特征提取 | 第26-48页 |
| ·引入视觉特征的原因 | 第26-27页 |
| ·人脸检测技术 | 第27-33页 |
| ·人脸检测技术概述 | 第28-29页 |
| ·特征组分析 | 第29-30页 |
| ·ASM(Active Shape Models)方法 | 第30页 |
| ·线性子空间法 | 第30-33页 |
| ·预处理 | 第33-35页 |
| ·滤波 | 第34页 |
| ·姿态校正 | 第34-35页 |
| ·嘴唇定位和特征提取 | 第35-39页 |
| ·ROI提取 | 第35-36页 |
| ·PCA特征提取 | 第36-38页 |
| ·LDA特征提取 | 第38-39页 |
| ·特征提取的分合算法 | 第39-47页 |
| ·图像灰度二值化 | 第39-40页 |
| ·人脸定位中的图像分割 | 第40页 |
| ·分合算法描述 | 第40-42页 |
| ·分割 | 第42页 |
| ·合并 | 第42-43页 |
| ·相邻归并 | 第43页 |
| ·成组算法 | 第43页 |
| ·形状属性的计算 | 第43-47页 |
| ·本章小结 | 第47-48页 |
| 第四章 基于视觉特征的语音端点检测 | 第48-56页 |
| ·基于图像比较的方法 | 第48-49页 |
| ·基于FAP的方法 | 第49-53页 |
| ·FAP介绍 | 第49-51页 |
| ·FAP的计算 | 第51-52页 |
| ·基于FAP语音端点检测 | 第52-53页 |
| ·基于函数的检测方法 | 第53-55页 |
| ·嘴唇的数学描述 | 第53-54页 |
| ·端点的检测 | 第54-55页 |
| ·本章小结 | 第55-56页 |
| 第五章 音频和视频融合的端点检测技术 | 第56-61页 |
| ·音视频信息融合 | 第56-57页 |
| ·音视频结合的端点检测 | 第57-58页 |
| ·实验结果 | 第58-61页 |
| 第六章 总结和展望 | 第61-62页 |
| 致谢 | 第62-63页 |
| 参考文献 | 第63-67页 |
| 附录1 | 第67-68页 |