摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第11-19页 |
1.1 研究背景及意义 | 第11-12页 |
1.2 国内外研究历史与现状 | 第12-14页 |
1.3 说话人识别分类 | 第14-15页 |
1.4 说话人识别原理 | 第15-17页 |
1.4.1 特征提取 | 第16页 |
1.4.2 说话人建模 | 第16-17页 |
1.5 本文主要工作和内容安排 | 第17-19页 |
1.5.1 本文主要工作 | 第17-18页 |
1.5.2 本文内容安排 | 第18-19页 |
第二章 深度学习相关理论介绍 | 第19-32页 |
2.1 深度神经网络 | 第19-27页 |
2.1.1 人工神经元模型 | 第19-21页 |
2.1.2 深度神经网络结构 | 第21-23页 |
2.1.3 使用BP算法训练网络参数 | 第23-27页 |
2.2 卷积神经网络 | 第27-29页 |
2.2.1 卷积层 | 第27-28页 |
2.2.2 池化层 | 第28-29页 |
2.3 循环神经网络 | 第29-31页 |
2.3.1 基本的循环神经网络 | 第29-30页 |
2.3.2 带LSTM单元的循环神经网络 | 第30-31页 |
2.4 本章小结 | 第31-32页 |
第三章 基于CNN和Deep RNN的说话人辨认模型 | 第32-49页 |
3.1 模型的总体架构 | 第32-34页 |
3.2 语音数据的获取 | 第34-35页 |
3.2.1 采样与量化 | 第34页 |
3.2.2 采样过程中的参数设置 | 第34-35页 |
3.3 语音数据的预处理 | 第35-37页 |
3.3.1 预加重 | 第35页 |
3.3.2 分帧 | 第35-36页 |
3.3.3 加窗 | 第36-37页 |
3.3.4 端点检测 | 第37页 |
3.4 生成语音数据的语谱图 | 第37-41页 |
3.4.1 语谱图的生成流程 | 第38-39页 |
3.4.2 宽带语谱图和窄带语谱图 | 第39-40页 |
3.4.3 生成说话人的语谱图集合 | 第40-41页 |
3.5 网络模型的设计 | 第41-44页 |
3.5.1 CNN的设计 | 第41-42页 |
3.5.2 Deep RNN的设计 | 第42-44页 |
3.6 网络模型的训练阶段 | 第44-47页 |
3.6.1 训练数据标签化 | 第46页 |
3.6.2 数据标准化 | 第46-47页 |
3.6.3 模型的训练 | 第47页 |
3.7 网络模型的识别阶段 | 第47页 |
3.8 本章小结 | 第47-49页 |
第四章 模型实现及实验对比 | 第49-68页 |
4.1 实验条件 | 第49-51页 |
4.1.1 软硬件环境 | 第49页 |
4.1.2 语音数据集 | 第49-50页 |
4.1.3 识别率的计算 | 第50页 |
4.1.4 语谱图的大小 | 第50-51页 |
4.2 确定CDRNN模型在自建数据集上的网络结构 | 第51-57页 |
4.2.1 确定CNN的网络结构 | 第51-52页 |
4.2.2 两种池化操作的对比及分析 | 第52-55页 |
4.2.3 确定Deep RNN的网络结构 | 第55-57页 |
4.3 CDRNN模型和经典方法的对比 | 第57-60页 |
4.3.1 经典方法的识别结果 | 第57-59页 |
4.3.2 CDRNN模型的识别结果 | 第59-60页 |
4.3.3 两种方法的结果对比 | 第60页 |
4.4 CDRNN中的网络模型和其他深度模型的对比 | 第60-67页 |
4.4.1 说话人特征提取方面的对比 | 第61-64页 |
4.4.2 说话人建模能力方面的对比 | 第64-66页 |
4.4.3 实验结果分析 | 第66-67页 |
4.5 本章小结 | 第67-68页 |
第五章 移动端说话人识别系统的原型实现 | 第68-89页 |
5.1 引言 | 第68-69页 |
5.2 需求分析 | 第69-70页 |
5.3 系统设计 | 第70-73页 |
5.3.1 模块的划分 | 第71-72页 |
5.3.2 模块间的调用关系 | 第72-73页 |
5.4 关键模块的实现 | 第73-81页 |
5.4.1 网络通信模块的实现 | 第74-75页 |
5.4.2 语音录制模块的实现 | 第75-76页 |
5.4.3 语谱图生成模块的实现 | 第76-77页 |
5.4.4 语谱图识别模块的实现 | 第77-81页 |
5.5 系统测试 | 第81-87页 |
5.5.1 服务器地址设置功能测试 | 第81-83页 |
5.5.2 上传说话人语音功能测试 | 第83-85页 |
5.5.3 更新模型库功能测试 | 第85页 |
5.5.4 识别说话人语音功能测试 | 第85-87页 |
5.6 本章总结 | 第87-89页 |
第六章 全文总结与展望 | 第89-91页 |
6.1 全文总结 | 第89-90页 |
6.2 后续工作展望 | 第90-91页 |
致谢 | 第91-92页 |
参考文献 | 第92-96页 |