首页--工业技术论文--无线电电子学、电信技术论文--通信论文--电声技术和语音信号处理论文--语音信号处理论文--语音识别与设备论文

基于深度学习的说话人性别特征识别研究

摘要第5-6页
Abstract第6页
第一章 绪论第11-17页
    1.1 研究背景及意义第11-12页
    1.2 说话人性别识别的研究现状第12-13页
    1.3 深度学习对说话人识别研究的意义第13-14页
    1.4 研究问题及内容第14-15页
        1.4.1 研究问题第14页
        1.4.2 研究内容第14-15页
    1.5 论文结构第15-17页
第二章 说话人识别基础理论及实验分析第17-35页
    2.1 说话人识别模型第17-21页
        2.1.1 说话人识别原理第17-18页
        2.1.2 说话人识别分类第18-19页
        2.1.3 说话人性别识别第19页
        2.1.4 识别模型的种类第19-21页
    2.2 语音信号特征提取第21-27页
        2.2.1 语音信号预处理第21-23页
        2.2.2 基音的的提取第23-24页
        2.2.3 共振峰的提取第24页
        2.2.4 MFCC的提取第24-27页
    2.3 男女声的区分依据第27页
    2.4 男女声语音特征实验分析第27-33页
        2.4.1 语音信号的预处理第27-28页
        2.4.2 基音的提取和比较第28-29页
        2.4.3 共振峰的提取和比较第29页
        2.4.4 MFCC系数的提取和比较第29-33页
    2.5 本章小结第33-35页
第三章 深度学习基础理论第35-47页
    3.1 深度学习背景第35页
    3.2 BP神经网络原理第35-39页
        3.2.1 BP神经网络结构第35-36页
        3.2.2 反向传播算法第36-39页
    3.3 深度学习中的关键技术第39-42页
        3.3.1 梯度消失第39-40页
        3.3.2 过度拟合第40-42页
        3.3.3 计算负载第42页
    3.4 卷积神经网络(CNN)第42-45页
        3.4.1 CNN的结构第43页
        3.4.2 卷积层第43-44页
        3.4.3 池化层第44-45页
    3.5 本章小结第45-47页
第四章 基于深度学习的说话人性别识别模型的建立第47-55页
    4.1 基于深度学习的说话人性别识别模型第47-49页
        4.1.1 深度学习模型的选取第47-48页
        4.1.2 激励函数第48页
        4.1.3 Softmax分类器第48-49页
    4.2 网络的训练第49-52页
        4.2.1 代价函数第49-50页
        4.2.2 学习规则第50页
        4.2.3 网络的训练过程第50-52页
    4.3 网络的性能判定第52-53页
    4.4 本章小结第53-55页
第五章 基于深度学习的说话人性别识别模型的性能分析第55-65页
    5.1 实验环境介绍第55页
        5.1.1 实验的硬件环境第55页
        5.1.2 实验的软件环境第55页
    5.2 实验语音库建立第55-56页
        5.2.1 自建语音库的建立第55页
        5.2.2 对照组语音库的介绍第55-56页
    5.3 网络参数的确定第56-59页
        5.3.1 特征数据的预处理第56-57页
        5.3.2 学习率的确定第57-58页
        5.3.3 网络结构的确定第58-59页
        5.3.4 迭代次数的确定第59页
    5.4 网络的性能分析第59-63页
        5.4.1 卷积神经网络的结构第59-60页
        5.4.2 不同语音特征的识别性能比较第60-61页
        5.4.3 不同分类模型的识别性能比较第61-62页
        5.4.4 不同语音库的识别性能比较第62-63页
    5.5 实验结果分析第63-64页
    5.6 本章小结第64-65页
第六章 结论与展望第65-67页
    6.1 结论第65-66页
    6.2 展望第66-67页
致谢第67-69页
参考文献第69-73页
附录A 攻读硕士学位期间学术成果第73-75页
附录B 实验所用语音库及提取的特征第75-79页
附录C 论文核心代码第79-85页

论文共85页,点击 下载论文
上一篇:基于混合核函数LS-SVM的厌氧发酵产气量预测模型研究
下一篇:基于BP神经网络的室内定位指纹算法研究