摘要 | 第3-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第12-17页 |
1.1 语音识别概述 | 第12-13页 |
1.2 语音识别技术的发展 | 第13-15页 |
1.2.1 国外语音识别发展 | 第13-14页 |
1.2.2 国内语音识别发展 | 第14-15页 |
1.3 藏语语音识别研究现状 | 第15页 |
1.4 本文主要内容及结构 | 第15-17页 |
第二章 语音识别基本原理 | 第17-30页 |
2.1 语音信号预处理 | 第18页 |
2.2 语音信号的特征提取 | 第18-22页 |
2.2.1 语音信号预加重 | 第19页 |
2.2.2 加窗分帧处理 | 第19页 |
2.2.3 语音的端点检测 | 第19-20页 |
2.2.4 梅尔频率倒谱系数(MFCC) | 第20-22页 |
2.3 声学模型 | 第22-29页 |
2.3.1 隐马尔科夫模型(HMM) | 第22-25页 |
2.3.2 HMM模型的三个问题 | 第25页 |
2.3.3 HMM三个基本算法 | 第25-29页 |
2.4 语言模型 | 第29页 |
2.5 本章小结 | 第29-30页 |
第三章 基于HTK的藏语连续语音识别声学模型建模 | 第30-42页 |
3.1 HTK工具介绍 | 第30页 |
3.2 语音库的建立 | 第30-31页 |
3.3 建模单元的选择 | 第31-32页 |
3.4 HMM声学模型建模 | 第32-40页 |
3.4.1 数据准备 | 第32-35页 |
3.4.2 monophones模型训练 | 第35-37页 |
3.4.3 triphones模型训练 | 第37-38页 |
3.4.4 种子模型 | 第38-39页 |
3.4.5 识别测试 | 第39-40页 |
3.5 识别结果与分析 | 第40-41页 |
3.6 本章小结 | 第41-42页 |
第四章 基于sparse auto-encoder的英藏跨语言语音识别研究方法 | 第42-52页 |
4.1 引言 | 第42-43页 |
4.2 英语和藏语的AF-to-Phone映射 | 第43-46页 |
4.3 跨语言音素识别框架 | 第46页 |
4.4 sparse auto-encoder算法 | 第46-48页 |
4.5 实验与结果分析 | 第48-50页 |
4.6 本章小结 | 第50-52页 |
第五章 藏语拉萨话连续语音识别系统的实现 | 第52-56页 |
5.1 语音识别系统架构 | 第52-53页 |
5.2 藏语拉萨话语音识别系统实现 | 第53-55页 |
5.3 本章小结 | 第55-56页 |
第六章 总结与展望 | 第56-58页 |
6.1 总结 | 第56页 |
6.2 展望 | 第56-58页 |
参考文献 | 第58-62页 |
致谢 | 第62-63页 |
攻读硕士期间发表的学术论文目录 | 第63页 |