首页--工业技术论文--无线电电子学、电信技术论文--通信论文--电声技术和语音信号处理论文--语音信号处理论文--语音识别与设备论文

基于深度学习的说话人识别系统

摘要第3-4页
ABSTRACT第4页
第一章 绪论第7-11页
    1.1 研究背景第7-8页
    1.2 发展及现状第8-9页
        1.2.1 说话人识别发展现状第8页
        1.2.2 说话人识别中深度学习的发展状况第8-9页
    1.3 本文的主要工作和创新点第9-11页
第二章 说话人识别基础知识第11-17页
    2.1 语音研究任务第11-12页
    2.2 发声系统及数学模型第12-13页
    2.3 声学模型与语言模型第13-14页
    2.4 WAV文件格式第14-17页
第三章 说话人识别系统构成第17-41页
    3.1 预处理第17-20页
        3.1.1 信号采样第17页
        3.1.2 预加重第17-18页
        3.1.3 分帧和加窗第18-19页
        3.1.4 快速傅立叶变换第19-20页
    3.2 端点检测第20-23页
        3.2.1 基于短时能量的端点检测第20页
        3.2.2 谱熵端点检测算法及实现第20-22页
        3.2.3 实验结果对比分析第22-23页
    3.3 特征提取第23-28页
        3.3.1 梅尔频率倒谱系数第23-27页
        3.3.2 超向量第27-28页
        3.3.3 embedding第28页
    3.4 说话人模型第28-35页
        3.4.1 GMM-UBM第28-32页
        3.4.2 JFA第32-33页
        3.4.3 i-vector第33-35页
    3.5 说话人决策第35-37页
        3.5.1 支持向量机第35页
        3.5.2 概率形式的线性判别分析第35-36页
        3.5.3 余弦相似度第36-37页
    3.6 衡量指标第37-41页
        3.6.1 ROC与AUC第37-38页
        3.6.2 DET与EER第38-41页
第四章 深度学习在说话人识别中的应用第41-45页
    4.1 发展情况第41-42页
    4.2 深度学习在说话人识别中的应用第42-45页
        4.2.1 d-vector第42页
        4.2.2 端到端的系统第42-43页
        4.2.3 时延神经网络第43-45页
第五章 系统实现与实验第45-59页
    5.1 模型设计与实现第45-47页
        5.1.1 实验环境第45页
        5.1.2 网络结构第45-47页
    5.2 实验数据第47-48页
    5.3 训练过程第48-50页
    5.4 注册和测试过程第50页
    5.5 模型确定第50-56页
        5.5.1 节点数及层数选取第50-53页
        5.5.2 学习率选取第53-54页
        5.5.3 拼接帧长度选取第54-55页
        5.5.4 提取特征的位置选取第55-56页
    5.6 实验对比第56-58页
    5.7 实验结论第58-59页
第六章 总结与展望第59-61页
参考文献第61-65页
攻读学位期间取得的研究成果第65-67页
致谢第67-68页

论文共68页,点击 下载论文
上一篇:双目视觉三维重建中特征匹配算法研究
下一篇:产学研协同视角下电子信息企业核心竞争力评价研究