深度循环网络在移动端说话人识别中的应用

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第11-19页
1.1 研究背景及意义	第11-12页
1.2 国内外研究历史与现状	第12-14页
1.3 说话人识别分类	第14-15页
1.4 说话人识别原理	第15-17页
1.4.1 特征提取	第16页
1.4.2 说话人建模	第16-17页
1.5 本文主要工作和内容安排	第17-19页
1.5.1 本文主要工作	第17-18页
1.5.2 本文内容安排	第18-19页
第二章深度学习相关理论介绍	第19-32页
2.1 深度神经网络	第19-27页
2.1.1 人工神经元模型	第19-21页
2.1.2 深度神经网络结构	第21-23页
2.1.3 使用BP算法训练网络参数	第23-27页
2.2 卷积神经网络	第27-29页
2.2.1 卷积层	第27-28页
2.2.2 池化层	第28-29页
2.3 循环神经网络	第29-31页
2.3.1 基本的循环神经网络	第29-30页
2.3.2 带LSTM单元的循环神经网络	第30-31页
2.4 本章小结	第31-32页
第三章基于CNN和Deep RNN的说话人辨认模型	第32-49页
3.1 模型的总体架构	第32-34页
3.2 语音数据的获取	第34-35页
3.2.1 采样与量化	第34页
3.2.2 采样过程中的参数设置	第34-35页
3.3 语音数据的预处理	第35-37页
3.3.1 预加重	第35页
3.3.2 分帧	第35-36页
3.3.3 加窗	第36-37页
3.3.4 端点检测	第37页
3.4 生成语音数据的语谱图	第37-41页
3.4.1 语谱图的生成流程	第38-39页
3.4.2 宽带语谱图和窄带语谱图	第39-40页
3.4.3 生成说话人的语谱图集合	第40-41页
3.5 网络模型的设计	第41-44页
3.5.1 CNN的设计	第41-42页
3.5.2 Deep RNN的设计	第42-44页
3.6 网络模型的训练阶段	第44-47页
3.6.1 训练数据标签化	第46页
3.6.2 数据标准化	第46-47页
3.6.3 模型的训练	第47页
3.7 网络模型的识别阶段	第47页
3.8 本章小结	第47-49页
第四章模型实现及实验对比	第49-68页
4.1 实验条件	第49-51页
4.1.1 软硬件环境	第49页
4.1.2 语音数据集	第49-50页
4.1.3 识别率的计算	第50页
4.1.4 语谱图的大小	第50-51页
4.2 确定CDRNN模型在自建数据集上的网络结构	第51-57页
4.2.1 确定CNN的网络结构	第51-52页
4.2.2 两种池化操作的对比及分析	第52-55页
4.2.3 确定Deep RNN的网络结构	第55-57页
4.3 CDRNN模型和经典方法的对比	第57-60页
4.3.1 经典方法的识别结果	第57-59页
4.3.2 CDRNN模型的识别结果	第59-60页
4.3.3 两种方法的结果对比	第60页
4.4 CDRNN中的网络模型和其他深度模型的对比	第60-67页
4.4.1 说话人特征提取方面的对比	第61-64页
4.4.2 说话人建模能力方面的对比	第64-66页
4.4.3 实验结果分析	第66-67页
4.5 本章小结	第67-68页
第五章移动端说话人识别系统的原型实现	第68-89页
5.1 引言	第68-69页
5.2 需求分析	第69-70页
5.3 系统设计	第70-73页
5.3.1 模块的划分	第71-72页
5.3.2 模块间的调用关系	第72-73页
5.4 关键模块的实现	第73-81页
5.4.1 网络通信模块的实现	第74-75页
5.4.2 语音录制模块的实现	第75-76页
5.4.3 语谱图生成模块的实现	第76-77页
5.4.4 语谱图识别模块的实现	第77-81页
5.5 系统测试	第81-87页
5.5.1 服务器地址设置功能测试	第81-83页
5.5.2 上传说话人语音功能测试	第83-85页
5.5.3 更新模型库功能测试	第85页
5.5.4 识别说话人语音功能测试	第85-87页
5.6 本章总结	第87-89页
第六章全文总结与展望	第89-91页
6.1 全文总结	第89-90页
6.2 后续工作展望	第90-91页
致谢	第91-92页
参考文献	第92-96页