摘要 | 第5-7页 |
ABSTRACT | 第7-9页 |
第1章 绪论 | 第19-39页 |
1.1 语音产生过程与发音特征 | 第19-22页 |
1.2 结合发音特征的语音识别 | 第22-23页 |
1.3 文本特征到发音特征转换 | 第23页 |
1.4 声学特征到发音特征反向映射 | 第23-24页 |
1.5 发音特征到声学特征转换 | 第24-26页 |
1.6 结合发音特征的语音合成 | 第26-36页 |
1.6.1 语音合成技术概述 | 第26-29页 |
1.6.2 基于HMM的统计参数语音合成 | 第29-35页 |
1.6.3 结合发音特征的HMM语音合成 | 第35-36页 |
1.7 本文概述 | 第36-39页 |
第2章 基于深度学习的发音特征到声学特征转换方法 | 第39-58页 |
2.1 基于混合高斯模型的转换方法 | 第39-41页 |
2.1.1 混合高斯模型用于发音特征到声学特征的转换 | 第39-41页 |
2.1.2 评价 | 第41页 |
2.2 深度前馈网络 | 第41-44页 |
2.3 融合长短时记忆单元的递归神经网络 | 第44-47页 |
2.4 基于DFN和LSTM-RNN的发音特征到声学特征转换 | 第47-48页 |
2.5 实验 | 第48-56页 |
2.5.1 实验配置 | 第48-49页 |
2.5.2 客观实验 | 第49-53页 |
2.5.3 主观实验 | 第53-56页 |
2.6 本章小结 | 第56-58页 |
第3章 结合语言知识与级联预测的发音特征到声学特征转换方法 | 第58-72页 |
3.1 基于音素分类器的语言知识提取 | 第58-60页 |
3.2 多种声学特征的级联预测建模方法 | 第60-61页 |
3.3 实验 | 第61-67页 |
3.3.1 实验配置 | 第61页 |
3.3.2 客观实验 | 第61-65页 |
3.3.3 主观实验 | 第65-67页 |
3.4 分析与讨论 | 第67-71页 |
3.4.1 提出的方法对于不同音素类别的作用 | 第67-68页 |
3.4.2 训练集规模的影响 | 第68-69页 |
3.4.3 训练联合模型用于声学特征预测 | 第69-70页 |
3.4.4 语言学信息在基频转换时的作用 | 第70页 |
3.4.5 每个EMA传感器对基频预测的贡献 | 第70-71页 |
3.5 本章小结 | 第71-72页 |
第4章 融合发音特征与深度学习的语音合成声学建模方法 | 第72-81页 |
4.1 问题的提出 | 第72-73页 |
4.2 基于神经网络的语音合成声学建模 | 第73页 |
4.3 基于简单多任务学习的声学建模 | 第73-75页 |
4.4 基于层次化语音产生的多任务学习声学建模 | 第75-76页 |
4.5 基于结构化输出层的多任务学习声学建模 | 第76-78页 |
4.6 实验 | 第78-80页 |
4.6.1 实验配置与系统构建 | 第78-79页 |
4.6.2 实验结果 | 第79-80页 |
4.7 本章小结 | 第80-81页 |
第5章 基于神经网络蒸馏学习的语音合成声学建模方法 | 第81-94页 |
5.1 蒸馏学习 | 第81-83页 |
5.2 基于广义蒸馏学习框架的语音合成声学建模 | 第83-86页 |
5.3 实验 | 第86-91页 |
5.3.1 实验配置 | 第86-87页 |
5.3.2 使用发音特征作为辅助特征 | 第87-89页 |
5.3.3 使用其他特征作为辅助特征 | 第89-91页 |
5.4 本章小结 | 第91-94页 |
第6章 总结 | 第94-96页 |
6.1 主要贡献与创新点 | 第94-95页 |
6.2 后续工作 | 第95-96页 |
参考文献 | 第96-104页 |
致谢 | 第104-105页 |
在读期间发表的学术论文与取得的研究成果 | 第105-106页 |