首页--工业技术论文--无线电电子学、电信技术论文--通信论文--电声技术和语音信号处理论文--语音信号处理论文--语音识别与设备论文

基于深度学习的说话人识别建模研究

中文摘要第3-5页
英文摘要第5-7页
1 绪论第11-31页
    1.1 研究背景及研究意义第11-12页
    1.2 说话人识别技术的发展简史第12-14页
    1.3 说话人识别系统基本框架第14-17页
        1.3.1 特征提取第14-15页
        1.3.2 模型建立第15-16页
        1.3.3 打分判决第16-17页
    1.4 当前主流的说话人识别建模技术第17-24页
        1.4.1 高斯混合-通用背景模型第17-21页
        1.4.2 总体变化模型第21-23页
        1.4.3 线性判别分析模型第23-24页
    1.5 说话人识别性能评价指标第24-26页
        1.5.1 说话人确认性能评价指标第24-26页
        1.5.2 说话人辨认性能评价指标第26页
    1.6 论文研究的总体思路第26-28页
    1.7 论文组织第28-31页
2 深度学习技术分析第31-45页
    2.1 引言第31-32页
    2.2 深度学习的三个步骤第32-33页
    2.3 常用深度神经网络结构第33-37页
        2.3.1 受限玻尔兹曼机第33-34页
        2.3.2 深度置信网络第34-35页
        2.3.3 递归神经网络第35-36页
        2.3.4 卷积神经网络第36-37页
    2.4 目标函数第37-38页
        2.4.1 均方误差目标函数第37-38页
        2.4.2 交叉熵目标函数第38页
    2.5 参数学习方法第38-43页
        2.5.1 误差反向传播算法第38-40页
        2.5.2 随机梯度下降法第40-41页
        2.5.3 预训练技术第41-43页
    2.6 本章小结第43-45页
3 基于受限玻尔兹曼机的总体变化因子说话人识别模型第45-61页
    3.1 引言第45-46页
    3.2 网络结构及模型训练第46-49页
        3.2.1 高斯-伯努利RBM第47-48页
        3.2.2 高斯-高斯RBM第48页
        3.2.3 RBM的模型训练第48-49页
    3.3 基于RBM的总体变化因子建模方法第49-51页
        3.3.1 RBM-i-vector建模方法第49-50页
        3.3.2 深度RBM-i-vector建模方法第50-51页
    3.4 实验配置第51-53页
        3.4.1 实验数据库第51-52页
        3.4.2 模型配置第52-53页
    3.5 实验结果及分析第53-60页
        3.5.1 不同RBM建模的说话人确认性能对比第53-56页
        3.5.2 不同层数RBM网络建模的说话人确认性能对比第56-59页
        3.5.3 特征提取速度分析第59-60页
    3.6 本章小结第60-61页
4 基于深度神经网络的非线性度量学习说话人识别模型第61-81页
    4.1 引言第61-62页
    4.2 传统线性度量学习第62-63页
    4.3 深度神经网络结构第63-67页
        4.3.1 深度独立子空间分析网络第63-66页
        4.3.2 深度受限玻尔兹曼机网络第66-67页
    4.4 基于深度神经网络的非线性度量学习建模方法第67-70页
        4.4.1 目标函数构建第67-68页
        4.4.2 模型训练第68-70页
    4.5 实验配置第70-72页
        4.5.1 实验数据库第70-71页
        4.5.2 模型配置第71-72页
    4.6 实验结果及分析第72-77页
        4.6.1 深度非线性度量学习的有效性第72-74页
        4.6.2 与其它方法的性能比较第74-75页
        4.6.3 计算复杂度分析第75-77页
    4.7 深度RBM建模与深度ISA非线性度量学习建模的结合第77-80页
    4.8 本章小结第80-81页
5 面向海量数据处理的深度学习模型系统性能评估第81-107页
    5.1 引言第81-82页
    5.2 评估数据库构建第82-84页
        5.2.1 评估库A第82-83页
        5.2.2 评估库B第83页
        5.2.3 评估库C第83-84页
    5.3 大声纹库-小测试集条件下的说话人辨认性能评估第84-90页
        5.3.1 评估方案第84-85页
        5.3.2 实验结果第85-89页
        5.3.3 实验分析第89-90页
    5.4 小声纹库-大测试集条件下的说话人辨认性能评估第90-97页
        5.4.1 评估方案第90-91页
        5.4.2 实验结果第91-96页
        5.4.3 实验分析第96-97页
    5.5 小声纹库-跨信道大测试集条件下跨信道说话人辨认性能评估第97-103页
        5.5.1 评估方案第97-98页
        5.5.2 实验结果第98-103页
        5.5.3 实验分析第103页
    5.6 说话人辨认性能对比第103-105页
        5.6.1 大声纹库-小测试集和小声纹库-大测试集的性能对比第103-104页
        5.6.2 小声纹库-大测试集条件下同信道和跨信道的性能对比第104-105页
    5.7 本章小结第105-107页
6 总结与展望第107-111页
    6.1 论文工作总结第107-108页
    6.2 工作展望第108-111页
致谢第111-113页
参考文献第113-123页
附录第123页
    A 作者在攻读学位期间发表的论文目录第123页
    B 作者在攻读博士学位期间参加的科研项目及得奖情况第123页

论文共123页,点击 下载论文
上一篇:大庆市大豆生产发展问题研究
下一篇:基于农业产业集聚视角下农民增收问题研究--以福建省11个农村固定观察点为例