摘要 | 第1-3页 |
Summary | 第3-5页 |
目录 | 第5-7页 |
第一章 绪论 | 第7-11页 |
·语音端点检测 | 第7-8页 |
·传统语音识别的缺点 | 第8页 |
·视觉语音 | 第8-9页 |
·引入视觉信息的意义 | 第9页 |
·本文贡献 | 第9-10页 |
·本文的结构安排 | 第10页 |
·本章总结 | 第10-11页 |
第二章 基于听觉特征的语音端点检测 | 第11-26页 |
·语音信号的时域分析 | 第11-15页 |
·语音信号短时能量 | 第12-13页 |
·Window以及窗口的长度 | 第13-14页 |
·短时平均跨零数 | 第14-15页 |
·基于音频的语音端点检测常用方法 | 第15-22页 |
·基于能量的端点检测 | 第15-16页 |
·基于LPC-10声码器的端点检测 | 第16页 |
·基于信息熵的语音端点检测 | 第16-17页 |
·基于频带方差的端点检测 | 第17-20页 |
·基于HMM的端点检测方法 | 第20-21页 |
·基于分形技术的端点检测 | 第21-22页 |
·带噪声语音端点检测方法 | 第22-25页 |
·时频方差 | 第22-23页 |
·频域方差 | 第23-24页 |
·端点检测和状态转换 | 第24-25页 |
·本章小结 | 第25-26页 |
第三章 语音视觉特征提取 | 第26-48页 |
·引入视觉特征的原因 | 第26-27页 |
·人脸检测技术 | 第27-33页 |
·人脸检测技术概述 | 第28-29页 |
·特征组分析 | 第29-30页 |
·ASM(Active Shape Models)方法 | 第30页 |
·线性子空间法 | 第30-33页 |
·预处理 | 第33-35页 |
·滤波 | 第34页 |
·姿态校正 | 第34-35页 |
·嘴唇定位和特征提取 | 第35-39页 |
·ROI提取 | 第35-36页 |
·PCA特征提取 | 第36-38页 |
·LDA特征提取 | 第38-39页 |
·特征提取的分合算法 | 第39-47页 |
·图像灰度二值化 | 第39-40页 |
·人脸定位中的图像分割 | 第40页 |
·分合算法描述 | 第40-42页 |
·分割 | 第42页 |
·合并 | 第42-43页 |
·相邻归并 | 第43页 |
·成组算法 | 第43页 |
·形状属性的计算 | 第43-47页 |
·本章小结 | 第47-48页 |
第四章 基于视觉特征的语音端点检测 | 第48-56页 |
·基于图像比较的方法 | 第48-49页 |
·基于FAP的方法 | 第49-53页 |
·FAP介绍 | 第49-51页 |
·FAP的计算 | 第51-52页 |
·基于FAP语音端点检测 | 第52-53页 |
·基于函数的检测方法 | 第53-55页 |
·嘴唇的数学描述 | 第53-54页 |
·端点的检测 | 第54-55页 |
·本章小结 | 第55-56页 |
第五章 音频和视频融合的端点检测技术 | 第56-61页 |
·音视频信息融合 | 第56-57页 |
·音视频结合的端点检测 | 第57-58页 |
·实验结果 | 第58-61页 |
第六章 总结和展望 | 第61-62页 |
致谢 | 第62-63页 |
参考文献 | 第63-67页 |
附录1 | 第67-68页 |