远距离混合语音识别方法的研究
摘要 | 第5-6页 |
Abstract | 第6页 |
1 绪论 | 第9-15页 |
1.1 选题背景及意义 | 第9页 |
1.2 语音识别技术发展的研究 | 第9-13页 |
1.2.1 单语种的语音识别的发展 | 第9-13页 |
1.2.2 多语种的语音识别的发展 | 第13页 |
1.3 论文的研究内容与安排 | 第13-15页 |
2 语音识别的基本理论 | 第15-27页 |
2.1 语音特征参数的提取 | 第15-17页 |
2.1.1 LPCC特征参数 | 第15-16页 |
2.1.2 MFCC系数 | 第16-17页 |
2.2 隐马尔科夫声学模型 | 第17-21页 |
2.2.1 HMM的基本思想 | 第17-18页 |
2.2.2 HMM的基本算法 | 第18-20页 |
2.2.3 HMM在语音识别中的应用 | 第20-21页 |
2.3 深度神经网络的基本原理 | 第21-25页 |
2.3.1 RBM的基本理论 | 第22-23页 |
2.3.2 RBM的训练过程 | 第23-24页 |
2.3.3 RBM构成DNN过程 | 第24-25页 |
2.4 语言模型 | 第25页 |
2.5 解码模型 | 第25-26页 |
2.6 本章小结 | 第26-27页 |
3 基于优化阵列参数的远距离语音识别方法 | 第27-36页 |
3.1 基于参数优化的阵列语音识别方法 | 第28-31页 |
3.1.1 滤波-求和波束形成 | 第28-29页 |
3.1.2 优化阵列参数的基本理论 | 第29-31页 |
3.2 优化阵列参数的具体步骤 | 第31-34页 |
3.2.1 优化状态序列 | 第31页 |
3.2.2 优化阵列参数 | 第31-34页 |
3.3 实验结果与分析 | 第34-35页 |
3.4 本章小结 | 第35-36页 |
4 优化决策树的远距离混合语音识别方法 | 第36-47页 |
4.1 中英文两种语言的区别 | 第36页 |
4.1.1 发音方面的区别 | 第36页 |
4.1.2 声学单元的选取 | 第36页 |
4.2 中英文声学建模的方法 | 第36-37页 |
4.3 三音子声学模型 | 第37-38页 |
4.4 基于决策树状态共享策略 | 第38-41页 |
4.4.1 问题集的设计 | 第38-40页 |
4.4.2 决策树的构造 | 第40-41页 |
4.5 实验结果与分析 | 第41-46页 |
4.5.1 仿真环境及配置 | 第41-42页 |
4.5.2 识别评价标准 | 第42页 |
4.5.3 实验结果与分析 | 第42-46页 |
4.6 本章小结 | 第46-47页 |
5 基于深度神经网络的语音识别方法 | 第47-54页 |
5.1 DNN-HMM建模的基本思想 | 第47页 |
5.2 Kaldi语音工具箱的简介 | 第47-50页 |
5.2.1 基于Kaldi具体实现DNN训练过程 | 第48-50页 |
5.3 实验结果与分析 | 第50-53页 |
5.3.1 数据集准备 | 第50页 |
5.3.2 预处理及网络参数配置 | 第50页 |
5.3.3 实验结果与分析 | 第50-53页 |
5.4 本章小结 | 第53-54页 |
6 总结和展望 | 第54-55页 |
参考文献 | 第55-58页 |
攻读硕士期间发表学术论文情况 | 第58-59页 |
致谢 | 第59页 |