低资源环境下的语音识别技术研究

摘要	第4-6页
ABSTRACT	第6-7页
第一章绪论	第13-26页
1.1 研究背景和意义	第13-14页
1.2 语音识别基本原理	第14-18页
1.2.1 连续语音识别	第14-17页
1.2.2 关键词检索	第17-18页
1.3 低资源环境下语音识别技术的发展及研究现状	第18-22页
1.3.1 低资源语音识别特征提取	第19-20页
1.3.2 低资源语音识别声学建模	第20-21页
1.3.3 低资源语音识别资源扩展	第21-22页
1.4 性能评价指标	第22-23页
1.4.1 词错误率	第22页
1.4.2 实际查询项权重代价	第22-23页
1.5 论文的研究内容及结构安排	第23-26页
1.5.1 论文的研究内容	第23-24页
1.5.2 论文的结构安排	第24-26页
第二章基于BN特征和SGMM的低资源语音识别基线系统	第26-36页
2.1 低资源语音识别基线系统架构	第26页
2.2 瓶颈特征	第26-29页
2.2.1 深度神经网络	第26-28页
2.2.2 BN特征提取	第28-29页
2.3 子空间高斯混合模型	第29-32页
2.3.1 SGMM基本原理	第29-31页
2.3.2 SGMM训练	第31页
2.3.3 SGMM与GMM参数规模比较	第31-32页
2.4 实验结果与分析	第32-35页
2.4.1 实验数据	第32-33页
2.4.2 实验设置	第33-34页
2.4.3 基线系统性能	第34-35页
2.5 本章小结	第35-36页
第三章基于LSTM-RNN的低资源语音识别声学建模方法	第36-44页
3.1 引言	第36页
3.2 长短时记忆循环神经网络	第36-39页
3.2.1 循环神经网络结构	第36-37页
3.2.2 长短时记忆网络结构	第37-39页
3.2.3 基于LSTM-RNN的声学建模	第39页
3.3 序贯区分性训练	第39-41页
3.4 实验结果与分析	第41-42页
3.4.1 实验数据及设置	第41页
3.4.2 LSTM-RNN-HMM模型性能	第41-42页
3.4.3 序贯区分性训练性能	第42页
3.5 本章小结	第42-44页
第四章基于表征共享迁移和训练数据扩展的低资源语音识别	第44-54页
4.1 引言	第44页
4.2 DNN中的表征共享和迁移	第44-47页
4.2.1 多任务和迁移学习	第44-46页
4.2.2 多语言和跨语言语音识别	第46-47页
4.3 训练数据扩展	第47-49页
4.3.1 音频数据扰动	第47-48页
4.3.2 半监督训练	第48-49页
4.4 实验结果与分析	第49-53页
4.4.1 实验数据及设置	第49-50页
4.4.2 MBN特征性能	第50页
4.4.3 训练数据扩展性能	第50-51页
4.4.4 低资源语音识别方法综合比较	第51-53页
4.5 本章小节	第53-54页
第五章基于互补FST的发音字典扩展方法	第54-65页
5.1 引言	第54-55页
5.2 字形音素转换策略	第55页
5.2.1 基于规则的G2P转换	第55页
5.2.2 数据驱动的G2P转换	第55页
5.3 基于互补FST的字典扩展	第55-60页
5.3.1 新词-发音对生成	第56-57页
5.3.2 词-发音对确认	第57-59页
5.3.3 语音模型更新	第59-60页
5.4 实验结果与分析	第60-64页
5.4.1 实验数据及设置	第60页
5.4.2 字典扩展实验结果	第60-63页
5.4.3 扩展字典前后的系统性能	第63-64页
5.5 本章小节	第64-65页
第六章总结	第65-67页
6.1 本文主要工作	第65-66页
6.2 下一步研究方向	第66-67页
致谢	第67-68页
参考文献	第68-75页
作者简历	第75页