| 摘要 | 第5-6页 |
| ABSTRACT | 第6-7页 |
| 第一章 绪论 | 第11-19页 |
| 1.1 研究背景及意义 | 第11-12页 |
| 1.2 国内外研究历史与现状 | 第12-14页 |
| 1.3 说话人识别分类 | 第14-15页 |
| 1.4 说话人识别原理 | 第15-17页 |
| 1.4.1 特征提取 | 第16页 |
| 1.4.2 说话人建模 | 第16-17页 |
| 1.5 本文主要工作和内容安排 | 第17-19页 |
| 1.5.1 本文主要工作 | 第17-18页 |
| 1.5.2 本文内容安排 | 第18-19页 |
| 第二章 深度学习相关理论介绍 | 第19-32页 |
| 2.1 深度神经网络 | 第19-27页 |
| 2.1.1 人工神经元模型 | 第19-21页 |
| 2.1.2 深度神经网络结构 | 第21-23页 |
| 2.1.3 使用BP算法训练网络参数 | 第23-27页 |
| 2.2 卷积神经网络 | 第27-29页 |
| 2.2.1 卷积层 | 第27-28页 |
| 2.2.2 池化层 | 第28-29页 |
| 2.3 循环神经网络 | 第29-31页 |
| 2.3.1 基本的循环神经网络 | 第29-30页 |
| 2.3.2 带LSTM单元的循环神经网络 | 第30-31页 |
| 2.4 本章小结 | 第31-32页 |
| 第三章 基于CNN和Deep RNN的说话人辨认模型 | 第32-49页 |
| 3.1 模型的总体架构 | 第32-34页 |
| 3.2 语音数据的获取 | 第34-35页 |
| 3.2.1 采样与量化 | 第34页 |
| 3.2.2 采样过程中的参数设置 | 第34-35页 |
| 3.3 语音数据的预处理 | 第35-37页 |
| 3.3.1 预加重 | 第35页 |
| 3.3.2 分帧 | 第35-36页 |
| 3.3.3 加窗 | 第36-37页 |
| 3.3.4 端点检测 | 第37页 |
| 3.4 生成语音数据的语谱图 | 第37-41页 |
| 3.4.1 语谱图的生成流程 | 第38-39页 |
| 3.4.2 宽带语谱图和窄带语谱图 | 第39-40页 |
| 3.4.3 生成说话人的语谱图集合 | 第40-41页 |
| 3.5 网络模型的设计 | 第41-44页 |
| 3.5.1 CNN的设计 | 第41-42页 |
| 3.5.2 Deep RNN的设计 | 第42-44页 |
| 3.6 网络模型的训练阶段 | 第44-47页 |
| 3.6.1 训练数据标签化 | 第46页 |
| 3.6.2 数据标准化 | 第46-47页 |
| 3.6.3 模型的训练 | 第47页 |
| 3.7 网络模型的识别阶段 | 第47页 |
| 3.8 本章小结 | 第47-49页 |
| 第四章 模型实现及实验对比 | 第49-68页 |
| 4.1 实验条件 | 第49-51页 |
| 4.1.1 软硬件环境 | 第49页 |
| 4.1.2 语音数据集 | 第49-50页 |
| 4.1.3 识别率的计算 | 第50页 |
| 4.1.4 语谱图的大小 | 第50-51页 |
| 4.2 确定CDRNN模型在自建数据集上的网络结构 | 第51-57页 |
| 4.2.1 确定CNN的网络结构 | 第51-52页 |
| 4.2.2 两种池化操作的对比及分析 | 第52-55页 |
| 4.2.3 确定Deep RNN的网络结构 | 第55-57页 |
| 4.3 CDRNN模型和经典方法的对比 | 第57-60页 |
| 4.3.1 经典方法的识别结果 | 第57-59页 |
| 4.3.2 CDRNN模型的识别结果 | 第59-60页 |
| 4.3.3 两种方法的结果对比 | 第60页 |
| 4.4 CDRNN中的网络模型和其他深度模型的对比 | 第60-67页 |
| 4.4.1 说话人特征提取方面的对比 | 第61-64页 |
| 4.4.2 说话人建模能力方面的对比 | 第64-66页 |
| 4.4.3 实验结果分析 | 第66-67页 |
| 4.5 本章小结 | 第67-68页 |
| 第五章 移动端说话人识别系统的原型实现 | 第68-89页 |
| 5.1 引言 | 第68-69页 |
| 5.2 需求分析 | 第69-70页 |
| 5.3 系统设计 | 第70-73页 |
| 5.3.1 模块的划分 | 第71-72页 |
| 5.3.2 模块间的调用关系 | 第72-73页 |
| 5.4 关键模块的实现 | 第73-81页 |
| 5.4.1 网络通信模块的实现 | 第74-75页 |
| 5.4.2 语音录制模块的实现 | 第75-76页 |
| 5.4.3 语谱图生成模块的实现 | 第76-77页 |
| 5.4.4 语谱图识别模块的实现 | 第77-81页 |
| 5.5 系统测试 | 第81-87页 |
| 5.5.1 服务器地址设置功能测试 | 第81-83页 |
| 5.5.2 上传说话人语音功能测试 | 第83-85页 |
| 5.5.3 更新模型库功能测试 | 第85页 |
| 5.5.4 识别说话人语音功能测试 | 第85-87页 |
| 5.6 本章总结 | 第87-89页 |
| 第六章 全文总结与展望 | 第89-91页 |
| 6.1 全文总结 | 第89-90页 |
| 6.2 后续工作展望 | 第90-91页 |
| 致谢 | 第91-92页 |
| 参考文献 | 第92-96页 |