摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第1章 绪论 | 第16-25页 |
1.1 语音识别简介 | 第16-17页 |
1.2 语音识别发展史 | 第17-19页 |
1.3 语音识别系统框架 | 第19-23页 |
1.3.1 声学模型 | 第20-23页 |
1.3.2 语言模型 | 第23页 |
1.4 本论文的研究内容和结构安排 | 第23-25页 |
1.4.1 本论文的结构安排 | 第23-25页 |
第2章 鲁棒性语音识别 | 第25-39页 |
2.1 前言 | 第25页 |
2.2 鲁棒性语音识别方法 | 第25-38页 |
2.2.1 鲁棒性特征 | 第25-26页 |
2.2.2 信号域增强 | 第26-37页 |
2.2.3 鲁棒声学模型 | 第37-38页 |
2.3 总结 | 第38-39页 |
第3章 多特征拼接和多系统结合的信息融合框架 | 第39-56页 |
3.1 前言 | 第39-40页 |
3.2 系统框图 | 第40-41页 |
3.2.1 CHiME-3比赛介绍 | 第40-41页 |
3.2.2 系统介绍 | 第41页 |
3.3 改进的MVDR波束形成 | 第41-43页 |
3.4 鲁棒性特征 | 第43-46页 |
3.4.1 增强特征 | 第43-45页 |
3.4.2 特征规整 | 第45页 |
3.4.3 说话人相关特征 | 第45页 |
3.4.4 辅助特征 | 第45-46页 |
3.5 后端系统 | 第46-47页 |
3.5.1 声学模型 | 第46页 |
3.5.2 语言模型 | 第46页 |
3.5.3 系统融合 | 第46-47页 |
3.6 实验结果及分析 | 第47-55页 |
3.6.1 波束形成和拼接实验 | 第47-50页 |
3.6.2 特征拼接:前期融合 | 第50-51页 |
3.6.3 系统结合:后期融合 | 第51-52页 |
3.6.4 改进的波束形成算法和识别系统 | 第52-55页 |
3.7 总结 | 第55-56页 |
第4章 基于神经网络的多通道语音识别的迭代掩模估计方法 | 第56-77页 |
4.1 前言 | 第56-58页 |
4.2 传统多通道语音增强 | 第58-59页 |
4.2.1 基于时频掩蔽的波束形成算法 | 第58-59页 |
4.2.2 基于CGMM的时频点掩蔽估计的波束形成算法 | 第59页 |
4.3 基于迭代掩蔽估计的波束形成算法 | 第59-66页 |
4.3.1 迭代掩蔽估计流程 | 第61-62页 |
4.3.2 基于NN-IRM的掩蔽优化 | 第62-64页 |
4.3.3 基于语音识别的VAD信息优化掩蔽 | 第64-66页 |
4.4 后端识别器设计 | 第66-69页 |
4.4.1 基于DNN-HMM和DCNN-HMM的语言模型 | 第66-68页 |
4.4.2 基于LSTM的语言模型 | 第68-69页 |
4.5 实验结果及分析 | 第69-75页 |
4.5.1 实验配置 | 第69页 |
4.5.2 前端系统实验结果及分析 | 第69-72页 |
4.5.3 后端系统实验结果及分析 | 第72-75页 |
4.6 本章小结 | 第75-77页 |
第5章 基于师生模型的语音增强 | 第77-91页 |
5.1 前言 | 第77-79页 |
5.2 师生模型 | 第79-83页 |
5.2.1 老师模型训练 | 第79-80页 |
5.2.2 改善语音存在概率(ISPP) | 第80-82页 |
5.2.3 学生模型训练 | 第82-83页 |
5.3 实验结果及分析 | 第83-90页 |
5.3.1 实验配置 | 第83-85页 |
5.3.2 实验结果及分析 | 第85-90页 |
5.4 本章小结 | 第90-91页 |
第6章 总结 | 第91-94页 |
6.1 本文主要贡献和创新点 | 第91-92页 |
6.2 后续的研究工作 | 第92-94页 |
参考文献 | 第94-107页 |
在读期间发表的学术论文与取得的研究成果 | 第107-110页 |
致谢 | 第110-111页 |