首页--工业技术论文--无线电电子学、电信技术论文--通信论文--电声技术和语音信号处理论文--语音信号处理论文--语音识别与设备论文

基于卷积神经网络的语种识别方法研究

摘要第5-7页
Abstract第7-8页
第1章 绪论第15-31页
    1.1 语种识别简介第15-20页
        1.1.1 语种识别背景第15-17页
        1.1.2 可区分语种的信息第17-20页
    1.2 语种识别国内外研究概况第20-25页
        1.2.1 基于音素识别器的语种识别系统第20-21页
        1.2.2 基于底层声学特征的语种识别系统第21-23页
        1.2.3 基于深度学习的语种识别系统第23-24页
        1.2.4 基于端对端神经网络的语种识别系统第24-25页
    1.3 本文研究背景第25-26页
    1.4 本文采用数据集及系统性能评价指标第26-29页
        1.4.1 本文采用数据集第26-27页
        1.4.2 系统性能评价指标第27-29页
    1.5 本文的组织架构第29-31页
第2章 基于DBF特征的语种识别方法第31-49页
    2.1 深度神经网络简介第31-34页
    2.2 DBF-GMM/i-vector和DBF-DNN/i-vector语种识别方法第34-44页
        2.2.1 DBF特征提取第35-36页
        2.2.2 UBM模型训练第36-39页
        2.2.3 T矩阵训练和i-vector提取第39-42页
        2.2.4 类内、类间差异补偿第42-43页
        2.2.5 余弦得分第43-44页
    2.3 实验结果与分析第44-48页
        2.3.1 数据库及模型描述第44页
        2.3.2 6个最易混淆的语种子集的系统性能第44-45页
        2.3.3 NIST LRE 2009全集数据集的系统性能第45-46页
        2.3.4 短时语种和易混淆语种的识别性能分析第46-48页
    2.4 本章小结第48-49页
第3章 基于LID-net的端对端语种识别方法第49-67页
    3.1 卷积神经网络简介第50-52页
    3.2 LID-net的网络结构框架第52-55页
        3.2.1 LID-net网络框架第52-54页
        3.2.2 Batch Normalization第54-55页
        3.2.3 Spatial Pyramid Pooling第55页
    3.3 LID-net的结构分析第55-58页
    3.4 LID-net的训练策略第58-59页
    3.5 实验结果与分析第59-65页
        3.5.1 实验配置第59-60页
        3.5.2 卷积核尺寸对LID-net性能的影响第60-61页
        3.5.3 LID-net在6个易混淆语种数据集的识别性能第61-62页
        3.5.4 LID-net在NIST LRE 2009数据集的识别性能第62-64页
        3.5.5 LID-net和DBF-DNN/i-vector的DET曲线第64-65页
    3.6 本章小结第65-67页
第4章 基于LID-net的语种识别建模方法研究第67-79页
    4.1 基于LID-net的Fisher Vector统计量建模方法第68-70页
        4.1.1 Fisher Vector提取过程第68-69页
        4.1.2 基于LID-net的Fisher Vector统计量建模流程第69-70页
    4.2 基于LID-net的全差异空间建模方法第70-71页
    4.3 实验结果与分析第71-77页
        4.3.1 实验配置第72页
        4.3.2 LID-senone/i-vector和LID-senone/FV在NIST LRE 2009数据集的性能第72-74页
        4.3.3 DBF/i-vector和LID-senone/i-vector的系统性能分析第74-77页
    4.4 本章小结第77-79页
第5章 基于LID-bilinear-net的语种识别方法第79-93页
    5.1 Bilinear Pooling原理第79-80页
    5.2 LID-bilinear-net第80-84页
        5.2.1 从统计量角度看LID-net第80-81页
        5.2.2 利用LID-bilinear-net提取LID-senone高阶统计量信息第81-84页
        5.2.3 LID-bilinear-net的训练步骤第84页
    5.3 实验结果与分析第84-91页
        5.3.1 实验配置第84-85页
        5.3.2 不同形式LID-bilinear-net性能比较第85-86页
        5.3.3 LID-bilinear-net性能第86-87页
        5.3.4 不同系统性能之间的比较第87-91页
    5.4 本章小结第91-93页
第6章 总结与展望第93-97页
    6.1 本文研究总结第93-94页
    6.2 研究展望第94-97页
参考文献第97-105页
致谢第105-107页
在读期间发表的学术论文与取得的研究成果第107-108页

论文共108页,点击 下载论文
上一篇:面向多应用场景的加密图像可逆信息隐藏方法研究
下一篇:人脸识别中的深度特征学习方法研究