基于深度学习的说话人识别研究
摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第一章 绪论 | 第12-15页 |
1.1 国内外应用现状 | 第12-13页 |
1.2 课题研究背景及意义 | 第13页 |
1.3 研究内容和论文结构 | 第13-15页 |
第二章 说话人识别研究概述 | 第15-30页 |
2.1 说话人识别概述 | 第15-16页 |
2.2 说话人识别主流模型 | 第16-20页 |
2.2.1 神经网络模型 | 第16-17页 |
2.2.2 高斯混合通用背景模型 | 第17-19页 |
2.2.3 联合因子分析模型 | 第19-20页 |
2.3 说话人识别的特征参数提取 | 第20-29页 |
2.3.1 梅尔倒谱系数MFCC | 第24-25页 |
2.3.2 线性预测参数LPC | 第25-27页 |
2.3.3 线性预测倒谱系数LPCC | 第27-28页 |
2.3.4 身份认证矢量i-vector | 第28-29页 |
2.4 本章小结 | 第29-30页 |
第三章 基于身份认证矢量的说话人识别 | 第30-43页 |
3.1 引言 | 第30页 |
3.2 身份认证矢量基本理论 | 第30-34页 |
3.2.1 身份认证矢量提取 | 第30-33页 |
3.2.2 距离计算以及简化 | 第33-34页 |
3.3 身份矢量的优化改进 | 第34-36页 |
3.3.1 改进总体变化空间矩阵的估计 | 第34-35页 |
3.3.2 改进I-vector的信道补偿方法 | 第35-36页 |
3.4 实验设置及结果分析对比 | 第36-41页 |
3.4.1 实验设置 | 第36-39页 |
3.4.1.1 数据集 | 第36-37页 |
3.4.1.2 系统结构 | 第37-38页 |
3.4.1.3 参数设置 | 第38-39页 |
3.4.2 实验结果分析与对比 | 第39-41页 |
3.4.2.1 实验结果分析 | 第39-41页 |
3.4.2.2 与当前其他数据集结果比较 | 第41页 |
3.5 本章小结 | 第41-43页 |
第四章 基于LSTM和DBN的说话人识别 | 第43-59页 |
4.1 引言 | 第43-44页 |
4.2 神经网络模型结构 | 第44-50页 |
4.2.1 LSTM网络 | 第44-47页 |
4.2.2 DBN网络 | 第47-50页 |
4.3 系统结构 | 第50页 |
4.4 实验设置及结果分析 | 第50-56页 |
4.4.1 LSTM实验设置和结果 | 第50-53页 |
4.4.2 DBN实验设置和结果 | 第53-56页 |
4.5 DBN和LSTM模型系统性能对比与分析 | 第56-58页 |
4.5.1 性能结果对比 | 第56-57页 |
4.5.2 性能差别原因剖析 | 第57-58页 |
4.6 本章小结 | 第58-59页 |
第五章 基于语谱图和CNN的说话人识别 | 第59-75页 |
5.1 引言 | 第59-60页 |
5.2 语谱图和CNN模型 | 第60-64页 |
5.2.1 语谱图提取 | 第60-61页 |
5.2.2 网络模型 | 第61-64页 |
5.2.2.1 VGGNet网络 | 第62-63页 |
5.2.2.2 残差网络ResNet | 第63-64页 |
5.2.2.3 CNN-DNN网络 | 第64页 |
5.3 系统结构 | 第64-65页 |
5.4 实验设置 | 第65-68页 |
5.4.1 语谱图参数设置 | 第65页 |
5.4.2 VGGNet网络设置 | 第65-67页 |
5.4.3 ResNet残差网络设置 | 第67-68页 |
5.4.4 CNN-DNN网络设置 | 第68页 |
5.5 本章实验结果和分析 | 第68-71页 |
5.6 整体结果对比分析 | 第71-75页 |
第六章 总结与展望 | 第75-77页 |
6.1 论文工作总结 | 第75-76页 |
6.2 未来工作展望 | 第76-77页 |
参考文献 | 第77-83页 |
致谢 | 第83-84页 |
攻读学位期间发表的学术论文目录 | 第84页 |