摘要 | 第4-5页 |
Abstract | 第5-6页 |
第1章 绪论 | 第10-15页 |
1.1 引言 | 第10-11页 |
1.2 研究背景 | 第11页 |
1.3 研究内容及意义 | 第11-12页 |
1.4 国内外研究现状 | 第12-14页 |
1.4.1 语音识别发展、现状 | 第12-13页 |
1.4.2 区分性训练发展和现状 | 第13-14页 |
1.5 论文章节概要 | 第14-15页 |
第2章 语音识别的基本理论 | 第15-23页 |
2.1 引言 | 第15页 |
2.2 语音识别系统的整体框架 | 第15-20页 |
2.2.1 特征参数提取 | 第16-18页 |
MFCC | 第16-17页 |
PLP | 第17-18页 |
2.2.2 声学模型 | 第18页 |
2.2.3 语言模型 | 第18-19页 |
2.2.4 解码器 | 第19-20页 |
2.3 语音识别系统的分类 | 第20-21页 |
2.4 语音识别的主要方法 | 第21-22页 |
动态时间规整(DTW) | 第21页 |
隐马尔可夫模型(HMM) | 第21-22页 |
人工神经网络(ANN) | 第22页 |
2.5 本章小结 | 第22-23页 |
第3章 藏语拉萨话声学模型研究 | 第23-36页 |
3.1 基于HMM的声学模型 | 第23-31页 |
3.1.1 HMM | 第23-26页 |
评估问题: | 第25页 |
解码问题: | 第25-26页 |
训练问题: | 第26页 |
3.1.2 似然值计算 | 第26-28页 |
3.1.3 HMM解码问题 | 第28-29页 |
3.1.4 上下文相关问题 | 第29-31页 |
3.2 构建三音子模型 | 第31-35页 |
3.2.1 藏语连续语音识别中的建模单元 | 第32-33页 |
3.2.2 决策树状态聚类 | 第33-35页 |
3.3 本章小结 | 第35-36页 |
第4章 基于MPE的声学模型训练 | 第36-50页 |
4.1 引言 | 第36-37页 |
4.2 区分性训练方法 | 第37-38页 |
4.2.1 最大互信息估计准则 | 第37-38页 |
4.2.2 最小音素错误准则(MPE) | 第38页 |
4.3 MPE目标函数的定义 | 第38-39页 |
4.4 音素正确率的估算 | 第39-40页 |
4.5 最大化目标函数 | 第40-44页 |
4.6 模型的参数更新 | 第44-48页 |
4.7 基于MPE声学模型训练流程 | 第48-49页 |
4.8 本章小结 | 第49-50页 |
第5章 实验分析及结果 | 第50-61页 |
5.1 数据准备 | 第50-52页 |
5.1.1 HTK工具箱 | 第50-51页 |
5.1.2 语料库的建设 | 第51页 |
5.1.3 藏语拉萨话发音字典的建立 | 第51-52页 |
5.2 藏语音素辨识系统性能评价指标 | 第52-53页 |
5.3 实验结果与分析 | 第53-60页 |
5.3.1 实验1:建模单元的选取 | 第53-54页 |
5.3.2 实验2:高斯混合数的设定 | 第54-56页 |
5.3.3 实验3:惩罚因子的设定 | 第56-57页 |
5.3.4 实验4:Phone lattice大小的设定 | 第57-58页 |
5.3.5 实验5:加入Ⅰ—平滑函数 | 第58-60页 |
5.4 本章小结 | 第60-61页 |
第6章 总结和展望 | 第61-63页 |
6.1 全文总结 | 第61页 |
6.2 展望 | 第61-63页 |
参考文献 | 第63-66页 |
致谢 | 第66页 |