摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
目录 | 第9-12页 |
插图 | 第12-13页 |
表格 | 第13-14页 |
主要符号对照表 | 第14-17页 |
第一章 绪论 | 第17-39页 |
1.1 语音识别 | 第17-21页 |
1.1.1 语音识别简介 | 第17-18页 |
1.1.2 语音识别发展史 | 第18-21页 |
1.2 语音识别问题表示 | 第21-24页 |
1.2.1 贝叶斯决策理论 | 第22-23页 |
1.2.2 语音识别问题 | 第23-24页 |
1.3 语音识别系统框架 | 第24-36页 |
1.3.1 声学特征提取 | 第24-25页 |
1.3.2 声学模型 | 第25-34页 |
1.3.3 语言模型 | 第34-35页 |
1.3.4 解码器 | 第35-36页 |
1.4 本文的主要内容及组织结构 | 第36-39页 |
1.4.1 主要内容 | 第36-37页 |
1.4.2 组织结构 | 第37-39页 |
第二章 人工神经网络声学建模方法 | 第39-53页 |
2.1 引言 | 第39-40页 |
2.2 感知器 | 第40-42页 |
2.3 多层感知器网络 | 第42-47页 |
2.3.1 BP 算法 | 第42-45页 |
2.3.2 MLP训练中的问题 | 第45-47页 |
2.4 基于MLP的声学建模 | 第47-49页 |
2.4.1 Hybrid 方法 | 第48页 |
2.4.2 Tandem 方法 | 第48-49页 |
2.5 深层神经网络 | 第49-51页 |
2.6 本章小结 | 第51-53页 |
第三章 特征域和模型域的神经网络建模 | 第53-75页 |
3.1 引言 | 第53-55页 |
3.2 改进的Tandem方法 | 第55-60页 |
3.2.1 竞争信息的定义 | 第56页 |
3.2.2 竞争信息的挑选 | 第56-58页 |
3.2.3 基于竞争信息的Tandem改进 | 第58-60页 |
3.3 DNN声学建模 | 第60-68页 |
3.3.1 受限玻尔兹曼机 | 第60-65页 |
3.3.2 堆叠 RBM 构成 DNN | 第65-66页 |
3.3.3 DNN-HMM 模型 | 第66-68页 |
3.4 多流特征融合方法 | 第68-70页 |
3.5 实验和结果 | 第70-74页 |
3.5.1 实验设置 | 第70-72页 |
3.5.2 实验结果和分析 | 第72-74页 |
3.6 本章小结 | 第74-75页 |
第四章 基于状态聚类的多深层神经网络声学建模 | 第75-89页 |
4.1 引言 | 第75-78页 |
4.2 基于聚类的多DNN | 第78-83页 |
4.2.1 多DNN建模结构 | 第78-80页 |
4.2.2 状态级无监督数据聚类 | 第80-82页 |
4.2.3 多DNN的交叉熵训练 | 第82-83页 |
4.3 实验部分 | 第83-87页 |
4.3.1 普通话转写任务 | 第83-85页 |
4.3.2 Switchboard 任务 | 第85-87页 |
4.4 本章小结 | 第87-89页 |
第五章 多深层神经网络声学模型区分性训练 | 第89-99页 |
5.1 引言 | 第89-90页 |
5.2 多DNN建模回顾 | 第90-91页 |
5.3 多DNN的序列级区分性训练 | 第91-95页 |
5.3.1 普通DNN的序列级区分性训练 | 第91-93页 |
5.3.2 多DNN序列级区分性训练 | 第93-94页 |
5.3.3 多DNN序列级区分性训练的多GPU实现 | 第94-95页 |
5.4 实验部分 | 第95-98页 |
5.4.1 基线系统 | 第95-96页 |
5.4.2 多DNN的帧级交叉熵训练 | 第96-97页 |
5.4.3 多DNN系统的MMI区分性训练 | 第97-98页 |
5.5 本章小结 | 第98-99页 |
第六章 总结 | 第99-103页 |
6.1 本文的主要贡献与创新点 | 第99-100页 |
6.2 后续的研究工作 | 第100-103页 |
参考文献 | 第103-113页 |
个人简历及在读期间发表的学术论文 | 第113-115页 |
致谢 | 第115-116页 |