摘要 | 第4-5页 |
Abstract | 第5页 |
1 绪论 | 第8-13页 |
1.1 研究背景 | 第8-10页 |
1.2 说话人识别研究的历史和现状 | 第10-12页 |
1.3 本文主要工作与内容安排 | 第12-13页 |
2 说话人识别基本知识 | 第13-27页 |
2.1 语音信号的产生与数学模型 | 第13-15页 |
2.2 语音信号预处理 | 第15-17页 |
2.2.1 预加重 | 第15-16页 |
2.2.2 分帧后加窗 | 第16-17页 |
2.3 语音端点检测 | 第17-20页 |
2.4 语音特征提取 | 第20-25页 |
2.4.1 梅尔倒谱系数 | 第20-23页 |
2.4.2 Gammatone频率倒谱系数 | 第23-25页 |
2.5 说话人识别模型 | 第25-27页 |
3 深度学习基本理论 | 第27-35页 |
3.1 深度学习概述 | 第27-29页 |
3.1.1 深度学习基础 | 第27-28页 |
3.1.2 深度学习研究现状 | 第28页 |
3.1.3 深度学习常用方法 | 第28-29页 |
3.2 深度信念网络 | 第29-35页 |
3.2.1 受限玻尔兹曼机 | 第30-32页 |
3.2.2 逐层贪婪算法 | 第32-35页 |
4 深度学习在说话人识别中的应用 | 第35-42页 |
4.1 选择深度学习的原因 | 第35-36页 |
4.2 高斯-伯努利受限玻尔兹曼机 | 第36-39页 |
4.2.1 能量模型的建立 | 第36-37页 |
4.2.2 吉布斯采样 | 第37页 |
4.2.3 对比散度算法 | 第37-38页 |
4.2.4 SoftMax回归 | 第38页 |
4.2.5 评价方法 | 第38-39页 |
4.3 基于深度学习的说话人识别 | 第39-42页 |
4.3.1 深度学习应用于说话人识别 | 第39-40页 |
4.3.2 实际应用问题 | 第40-42页 |
5 系统实验与实现 | 第42-54页 |
5.1 实验条件 | 第42-43页 |
5.1.1 软硬件条件 | 第42页 |
5.1.2 语音样本库 | 第42页 |
5.1.3 系统识别率计算 | 第42-43页 |
5.2 基于深度学习的说话人识别性能研究 | 第43-48页 |
5.2.1 测试语音的单位长度对系统识别率的影响 | 第45-46页 |
5.2.2 不同语音特征对系统识别率的影响 | 第46-47页 |
5.2.3 模型的层数及层节点数对系统识别率的影响 | 第47-48页 |
5.3 基于改进特征的说话人识别系统研究 | 第48-51页 |
5.3.1 一种特征组合的说话人识别方法 | 第48-50页 |
5.3.2 实验过程与结果分析 | 第50-51页 |
5.4 基于改进统计方法的说话人识别系统研究 | 第51-54页 |
5.4.1 改进的统计方法 | 第51-52页 |
5.4.2 实验过程与结果分析 | 第52-54页 |
结论 | 第54-55页 |
参考文献 | 第55-59页 |
攻读硕士学位期间发表学术论文情况 | 第59-60页 |
致谢 | 第60-61页 |