基于卷积神经网络的语种识别方法研究

摘要	第5-7页
Abstract	第7-8页
第1章绪论	第15-31页
1.1 语种识别简介	第15-20页
1.1.1 语种识别背景	第15-17页
1.1.2 可区分语种的信息	第17-20页
1.2 语种识别国内外研究概况	第20-25页
1.2.1 基于音素识别器的语种识别系统	第20-21页
1.2.2 基于底层声学特征的语种识别系统	第21-23页
1.2.3 基于深度学习的语种识别系统	第23-24页
1.2.4 基于端对端神经网络的语种识别系统	第24-25页
1.3 本文研究背景	第25-26页
1.4 本文采用数据集及系统性能评价指标	第26-29页
1.4.1 本文采用数据集	第26-27页
1.4.2 系统性能评价指标	第27-29页
1.5 本文的组织架构	第29-31页
第2章基于DBF特征的语种识别方法	第31-49页
2.1 深度神经网络简介	第31-34页
2.2 DBF-GMM/i-vector和DBF-DNN/i-vector语种识别方法	第34-44页
2.2.1 DBF特征提取	第35-36页
2.2.2 UBM模型训练	第36-39页
2.2.3 T矩阵训练和i-vector提取	第39-42页
2.2.4 类内、类间差异补偿	第42-43页
2.2.5 余弦得分	第43-44页
2.3 实验结果与分析	第44-48页
2.3.1 数据库及模型描述	第44页
2.3.2 6个最易混淆的语种子集的系统性能	第44-45页
2.3.3 NIST LRE 2009全集数据集的系统性能	第45-46页
2.3.4 短时语种和易混淆语种的识别性能分析	第46-48页
2.4 本章小结	第48-49页
第3章基于LID-net的端对端语种识别方法	第49-67页
3.1 卷积神经网络简介	第50-52页
3.2 LID-net的网络结构框架	第52-55页
3.2.1 LID-net网络框架	第52-54页
3.2.2 Batch Normalization	第54-55页
3.2.3 Spatial Pyramid Pooling	第55页
3.3 LID-net的结构分析	第55-58页
3.4 LID-net的训练策略	第58-59页
3.5 实验结果与分析	第59-65页
3.5.1 实验配置	第59-60页
3.5.2 卷积核尺寸对LID-net性能的影响	第60-61页
3.5.3 LID-net在6个易混淆语种数据集的识别性能	第61-62页
3.5.4 LID-net在NIST LRE 2009数据集的识别性能	第62-64页
3.5.5 LID-net和DBF-DNN/i-vector的DET曲线	第64-65页
3.6 本章小结	第65-67页
第4章基于LID-net的语种识别建模方法研究	第67-79页
4.1 基于LID-net的Fisher Vector统计量建模方法	第68-70页
4.1.1 Fisher Vector提取过程	第68-69页
4.1.2 基于LID-net的Fisher Vector统计量建模流程	第69-70页
4.2 基于LID-net的全差异空间建模方法	第70-71页
4.3 实验结果与分析	第71-77页
4.3.1 实验配置	第72页
4.3.2 LID-senone/i-vector和LID-senone/FV在NIST LRE 2009数据集的性能	第72-74页
4.3.3 DBF/i-vector和LID-senone/i-vector的系统性能分析	第74-77页
4.4 本章小结	第77-79页
第5章基于LID-bilinear-net的语种识别方法	第79-93页
5.1 Bilinear Pooling原理	第79-80页
5.2 LID-bilinear-net	第80-84页
5.2.1 从统计量角度看LID-net	第80-81页
5.2.2 利用LID-bilinear-net提取LID-senone高阶统计量信息	第81-84页
5.2.3 LID-bilinear-net的训练步骤	第84页
5.3 实验结果与分析	第84-91页
5.3.1 实验配置	第84-85页
5.3.2 不同形式LID-bilinear-net性能比较	第85-86页
5.3.3 LID-bilinear-net性能	第86-87页
5.3.4 不同系统性能之间的比较	第87-91页
5.4 本章小结	第91-93页
第6章总结与展望	第93-97页
6.1 本文研究总结	第93-94页
6.2 研究展望	第94-97页
参考文献	第97-105页
致谢	第105-107页
在读期间发表的学术论文与取得的研究成果	第107-108页