摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第1章 绪论 | 第17-24页 |
1.1 语音合成的研究意义 | 第17-18页 |
1.2 语音合成方法概述 | 第18-21页 |
1.2.1 语音信号的产生模型 | 第18页 |
1.2.2 语音合成历史简介 | 第18-20页 |
1.2.3 统计参数语音合成方法 | 第20-21页 |
1.3 研究内容概述及论文结构安排 | 第21-24页 |
1.3.1 现有方法存在的不足 | 第21-22页 |
1.3.2 本论文的研究内容 | 第22-23页 |
1.3.3 论文结构安排 | 第23-24页 |
第2章 统计参数语音合成方法回顾 | 第24-37页 |
2.1 统计参数语音合成框架 | 第24-26页 |
2.2 基于HMM的统计参数语音合成 | 第26-30页 |
2.2.1 隐马尔科夫模型 | 第26-27页 |
2.2.2 HMM语音合成声学建模方法 | 第27-28页 |
2.2.3 关键技术 | 第28-29页 |
2.2.4 总结和改进 | 第29-30页 |
2.3 基于神经网络的声学建模方法 | 第30-36页 |
2.3.1 神经网络模型简介 | 第30-31页 |
2.3.2 全连接神经网络 | 第31-33页 |
2.3.3 递归神经网络 | 第33-35页 |
2.3.4 基于DNN和RNN的声学建模方法 | 第35-36页 |
2.4 本章小结 | 第36-37页 |
第3章 基于深度信念网络的频谱表征方法研究 | 第37-53页 |
3.1 受限玻尔兹曼机 | 第37-43页 |
3.1.1 背景介绍 | 第37-39页 |
3.1.2 模型结构 | 第39-41页 |
3.1.3 模型训练 | 第41-43页 |
3.2 深度信念网络 | 第43-45页 |
3.2.1 模型结构 | 第43-44页 |
3.2.2 模型训练 | 第44-45页 |
3.3 基于DBN的频谱表征 | 第45-48页 |
3.3.1 DBC特征提取与频谱重构方法 | 第45-46页 |
3.3.2 基于DBC特征的HMM语音合成 | 第46-48页 |
3.4 实验结果和分析 | 第48-51页 |
3.4.1 实验配置 | 第48页 |
3.4.2 实验结果 | 第48-51页 |
3.5 本章小结 | 第51-53页 |
第4章 基于卷积神经网络的频谱表征方法研究 | 第53-66页 |
4.1 卷积神经网络 | 第53-57页 |
4.1.1 卷积和反卷积 | 第53-54页 |
4.1.2 池化 | 第54-55页 |
4.1.3 卷积神经网络 | 第55-57页 |
4.2 SWWAE | 第57-59页 |
4.2.1 模型结构 | 第57-58页 |
4.2.2 模型训练 | 第58-59页 |
4.3 基于SWWAE的频谱表征 | 第59-61页 |
4.3.1 特征提取 | 第59-60页 |
4.3.2 声学建模 | 第60-61页 |
4.4 实验结果和分析 | 第61-64页 |
4.4.1 实验配置 | 第61-62页 |
4.4.2 实验结果 | 第62-64页 |
4.5 本章小结 | 第64-66页 |
第5章 基于二值隐层深度自编码器的频谱表征方法研究 | 第66-88页 |
5.1 深度自编码器 | 第66-69页 |
5.1.1 自编码器 | 第66-67页 |
5.1.2 深度自编码器 | 第67-68页 |
5.1.3 模型训练 | 第68-69页 |
5.2 基于DBN和DAE的语音合成频谱表征的相关工作与问题分析 | 第69-70页 |
5.3 二值隐层深度自编码器 | 第70-76页 |
5.3.1 隐层节点二值化程度对深度自编码器影响的理论分析 | 第71-74页 |
5.3.2 二值隐层深度自编码器训练方法 | 第74-76页 |
5.4 实验结果和分析 | 第76-87页 |
5.4.1 实验配置 | 第76-78页 |
5.4.2 BDAE的模型加噪训练验证 | 第78页 |
5.4.3 BDAE对缓解过平滑效应的作用分析 | 第78-80页 |
5.4.4 BDAE训练过程中高斯方差的调节 | 第80-82页 |
5.4.5 BDAE预训练方法的比较 | 第82-85页 |
5.4.6 基于DBN、DAE、BDAE以及SWWAE的频谱表征方法对比 | 第85-87页 |
5.5 本章小结 | 第87-88页 |
第6章 基于生成对抗网络的统计参数语音合成方法 | 第88-106页 |
6.1 生成对抗网络 | 第88-96页 |
6.1.1 模型框架 | 第88-90页 |
6.1.2 模型分析 | 第90-92页 |
6.1.3 GAN改进模型 | 第92-96页 |
6.2 基于GAN的语音合成相关研究 | 第96-97页 |
6.3 基于生成对抗网络的语音合成声学建模方法 | 第97-100页 |
6.3.1 对现有方法的分析 | 第97-98页 |
6.3.2 本文提出的方法 | 第98-100页 |
6.4 实验结果和分析 | 第100-104页 |
6.4.1 Blizzard Challenge 2017简介 | 第100页 |
6.4.2 系统配置 | 第100-101页 |
6.4.3 实验分析 | 第101-103页 |
6.4.4 实验结果 | 第103-104页 |
6.5 本章小结 | 第104-106页 |
第7章 总结 | 第106-108页 |
7.1 主要贡献与创新点 | 第106-107页 |
7.2 后续研究方向 | 第107-108页 |
参考文献 | 第108-115页 |
致谢 | 第115-116页 |
在读期间发表的学术论文与取得的研究成果 | 第116-117页 |