基于声调信息的拉萨方言声学建模方法研究
摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第1章 绪论 | 第8-10页 |
1.1 自动语音识别简介 | 第8-9页 |
1.2 本文研究内容及各章节安排 | 第9-10页 |
第2章 背景介绍 | 第10-26页 |
2.1 自动语音识别 | 第10-21页 |
2.1.1 特征提取 | 第11-13页 |
2.1.2 声学模型 | 第13-15页 |
2.1.3 语言模型 | 第15-17页 |
2.1.4 基于WFST的解码图 | 第17-20页 |
2.1.5 评价指标 | 第20-21页 |
2.2 Kaldi工具箱 | 第21-22页 |
2.3 拉萨方言语料库的建立 | 第22-26页 |
2.3.1 拉萨方言语料库的设计和录制 | 第23页 |
2.3.2 音频和文本数据的筛选校对 | 第23-26页 |
第3章 声学模型训练 | 第26-32页 |
3.1 传统的GMM-HMM方法 | 第26-29页 |
3.1.1 GMM模型的定义 | 第26-27页 |
3.1.2 GMM模型的参数估计 | 第27-28页 |
3.1.3 GMM-HMM模型训练 | 第28-29页 |
3.2 目前广泛使用的DNN-HMM方法 | 第29-32页 |
3.2.1 DNN-HMM模型训练 | 第29-32页 |
第4章 拉萨方言语音识别 | 第32-46页 |
4.1 拉萨方言语音识别研究现状 | 第32-33页 |
4.2 音频数据的划分及发音字典 | 第33页 |
4.3 拉萨方言语音识别基准系统 | 第33-38页 |
4.3.1 CD-DNN-HMM | 第34-35页 |
4.3.2 Tandem | 第35页 |
4.3.3 两种建模方法的音素级识别结果 | 第35-36页 |
4.3.4 CD-DNN-HMM基准系统 | 第36-38页 |
4.4 拉萨方言声调系统 | 第38-39页 |
4.4.1 拉萨方言的四个声调类型 | 第38-39页 |
4.5 声调特征提取 | 第39-42页 |
4.5.1 SAcC方法 | 第40-41页 |
4.5.2 Kaldi-Pitch方法 | 第41-42页 |
4.5.3 声调相关特征 | 第42页 |
4.6 加入声调信息的识别系统 | 第42-46页 |
4.6.1 系统融合 | 第43-46页 |
第5章 总结与展望 | 第46-48页 |
参考文献 | 第48-52页 |
发表论文和参加科研情况说明 | 第52-54页 |
致谢 | 第54-55页 |