摘要 | 第5-7页 |
abstract | 第7-8页 |
第1章 绪论 | 第11-19页 |
1.1 课题的背景及研究意义 | 第11-12页 |
1.2 课题发展历史及国内外研究现状 | 第12-16页 |
1.2.1 语音分离问题概述 | 第12-13页 |
1.2.2 语音分离技术发展历史 | 第13-15页 |
1.2.3 深度学习在语音分离方面的研究现状 | 第15-16页 |
1.2.4 生成对抗网络的研究现状 | 第16页 |
1.3 本文主要内容及章节安排 | 第16-19页 |
第2章 语音分离相关方法及声学特征提取 | 第19-31页 |
2.1 语音分离方法概述 | 第19-24页 |
2.1.1 传统语音分离方法 | 第19-20页 |
2.1.2 基于深度学习的语音分离方法 | 第20-24页 |
2.2 传统音频特征及提取相关方法 | 第24-30页 |
2.2.1 频谱图 | 第25-28页 |
2.2.2 梅尔频率倒谱系数 | 第28-29页 |
2.2.3 本文拟采用的音频特征 | 第29-30页 |
2.3 本章小结 | 第30-31页 |
第3章 基于生成对抗网络实现多语音分离模型 | 第31-57页 |
3.1 生成对抗网络的基本原理 | 第31-36页 |
3.1.1 生成对抗网络的模型动机 | 第31-33页 |
3.1.2 模型原理的数学物理描述 | 第33-36页 |
3.2 选择生对对抗网络的理论依据及改进 | 第36-37页 |
3.3 基于生成对抗网络的端到端多语音分离模型结构 | 第37-38页 |
3.4 实现语音分离关键问题的解决方案 | 第38-56页 |
3.4.1 语音信号预处理 | 第38-43页 |
3.4.2 多语音分离目标掩码设置 | 第43-44页 |
3.4.3 数据扩张 | 第44-45页 |
3.4.4 语音分离系统的生成模型(Generator) | 第45-52页 |
3.4.5 语音分离系统的判别模型(Discriminator) | 第52-56页 |
3.5 本章总结 | 第56-57页 |
第4章 实验结果与分析 | 第57-74页 |
4.1 实验环境准备 | 第57页 |
4.2 实验数据集建立 | 第57-59页 |
4.3 基于生成对抗网络的端到端多语音分离模型实验结果 | 第59-65页 |
4.4 对比实验分析 | 第65-72页 |
4.4.1 不同输入帧长对语音分离效果影响 | 第65-66页 |
4.4.2 不同输入特征对语音分离效果的影响 | 第66-68页 |
4.4.3 不同生成模型语音分离效果对比 | 第68页 |
4.4.4 不同判别模型中损失函数的效果对比 | 第68-69页 |
4.4.5 不同深度学习网络模型的语音分离效果对比 | 第69-72页 |
4.5 本章小结 | 第72-74页 |
结论 | 第74-76页 |
参考文献 | 第76-82页 |
攻读硕士学位期间发表的论文和取得的科研成果 | 第82-84页 |
致谢 | 第84页 |