摘要 | 第5-6页 |
Abstract | 第6页 |
第一章 绪论 | 第12-16页 |
1.1 语音识别概述 | 第12页 |
1.2 语音识别的国内外发展现状 | 第12-13页 |
1.3 语音识别中的难点 | 第13-14页 |
1.4 课题背景及论文结构 | 第14-16页 |
1.4.1 课题背景 | 第14页 |
1.4.2 论文结构 | 第14-16页 |
第二章 语音识别关键技术 | 第16-43页 |
2.1 语音识别系统总体框架 | 第16页 |
2.2 语音信号预处理 | 第16-23页 |
2.2.1 预滤波、采样、A/D变换 | 第17页 |
2.2.2 预处理 | 第17-18页 |
2.2.3 分帧加窗 | 第18-19页 |
2.2.4 时域分析、端点检测 | 第19-23页 |
2.2.4.1 短时能量分析 | 第19-20页 |
2.2.4.2 短时平均过零率分析 | 第20-21页 |
2.2.4.3 端点检测 | 第21页 |
2.2.4.4 双门限端点检测仿真及实现 | 第21-23页 |
2.3 语音信号的频域分析、特征参数提取 | 第23-27页 |
2.3.1 基音周期估计 | 第23页 |
2.3.2 共振峰的估计 | 第23-24页 |
2.3.3 线性预测倒谱系数LPCC | 第24-26页 |
2.3.4 Mel频率倒谱系数MFCC | 第26-27页 |
2.4 语音的训练与识别 | 第27-42页 |
2.4.1 动态时间规整(DTW)算法 | 第27-33页 |
2.4.1.1 DTW算法介绍 | 第28-29页 |
2.4.1.2 训练模板算法 | 第29-30页 |
2.4.1.3 DTW算法仿真及实现 | 第30-33页 |
2.4.2 隐马尔科夫模型(HMM)技术 | 第33-42页 |
2.4.2.1 HMM基本思想 | 第33-35页 |
2.4.2.2 HMM基本算法 | 第35-40页 |
2.4.2.3 HMM算法仿真及实现 | 第40-42页 |
2.5 本章小结 | 第42-43页 |
第三章 Sphinx语音识别系统 | 第43-58页 |
3.1 Sphinx概述 | 第43-44页 |
3.1.1 Sphinx语音识别系统简介 | 第43页 |
3.1.2 Sphinx架构和主要模块介绍 | 第43-44页 |
3.2 基于SphinxTrain的声学模型训练 | 第44-57页 |
3.2.1 声学模型 | 第44-45页 |
3.2.1.1 声学模型概述 | 第44页 |
3.2.1.2 基本声学单元的选择 | 第44-45页 |
3.2.1.3 协同发音、三音子模型 | 第45页 |
3.2.2 声学模型的训练 | 第45-57页 |
3.2.2.1 矢量量化 | 第47-48页 |
3.2.2.2 训练CI模型 | 第48-52页 |
3.2.2.3 训练未聚类CD模型 | 第52-54页 |
3.2.2.4 决策树聚类 | 第54-56页 |
3.2.2.5 训练聚类CD模型 | 第56页 |
3.2.2.6 删除插值 | 第56-57页 |
3.3 本章小结 | 第57-58页 |
第四章 汉语连续语音识别系统的构建和实现 | 第58-71页 |
4.1 汉语连续语音识别系统构建 | 第58-65页 |
4.1.1 语音库介绍 | 第59页 |
4.1.2 特征提取的改进 | 第59-63页 |
4.1.3 声学模型训练 | 第63-64页 |
4.1.4 实验环境及识别结果的计算 | 第64-65页 |
4.2 基于Sphinx的汉语连续数字串语音识别 | 第65-68页 |
4.2.1 语音库选择 | 第65页 |
4.2.2 数据准备 | 第65-66页 |
4.2.3 声学模型训练 | 第66页 |
4.2.4 实验结果及性能分析 | 第66-68页 |
4.2.4.1 改进MFCC提取算法对识别效果的影响 | 第66-67页 |
4.2.4.2 码本数对识别结果的影响 | 第67页 |
4.2.4.3 状态数对识别结果的影响 | 第67-68页 |
4.3 基于Sphinx的汉语连续语音识别 | 第68-70页 |
4.3.1 语音库选择 | 第68页 |
4.3.2 数据准备 | 第68-69页 |
4.3.3 实验结果及性能分析 | 第69-70页 |
4.4 本章小结 | 第70-71页 |
第五章 总结与展望 | 第71-72页 |
5.1 本文总结 | 第71页 |
5.2 研究展望 | 第71-72页 |
致谢 | 第72-73页 |
参考文献 | 第73-75页 |
攻读硕士学位期间取得的成果 | 第75-76页 |