首页--工业技术论文--无线电电子学、电信技术论文--通信论文--电声技术和语音信号处理论文--语音信号处理论文--语音合成论文

语音合成中的神经网络声学建模方法研究

摘要第5-7页
ABSTRACT第7-9页
第一章 绪论第18-24页
    1.1 语音合成技术概述第18-19页
    1.2 语音的产生过程第19-20页
        1.2.1 语音的产生机理第19页
        1.2.2 语音产生的数学建模第19-20页
    1.3 语音合成方法回顾第20-23页
        1.3.1 机械式语音合成器第20页
        1.3.2 电子式语音合成器第20-21页
        1.3.3 共振峰参数合成器第21-22页
        1.3.4 基于波形拼接的语音合成第22页
        1.3.5 基于统计建模的参数语音合成第22-23页
    1.4 本论文的研究目标和内容概述第23-24页
第二章 基于隐马尔可夫模型的统计参数语音合成第24-42页
    2.1 HMM简介第24-27页
        2.1.1 马尔可夫链第24-25页
        2.1.2 隐马尔可夫模型(HMM)第25-26页
        2.1.3 HMM在语音建模中的应用第26-27页
    2.2 基于HMM的统计参数语音合成第27-30页
        2.2.1 模型训练阶段第27-30页
        2.2.2 合成阶段第30页
    2.3 关键技术第30-34页
        2.3.1 基于STRAIGHT声码器的语音分析及合成第30-31页
        2.3.2 基于决策树的模型聚类第31页
        2.3.3 基于多空间概率分布HMM的基频建模第31-33页
        2.3.4 结合动态特征绑定的参数生成算法第33-34页
    2.4 基于HMM的统计参数语音合成方法的特点第34-39页
        2.4.1 优势第34-35页
        2.4.2 不足第35页
        2.4.3 基于HMM的统计参数语音合成框架下的改进方法第35-36页
        2.4.4 结合神经网络的统计参数语音合成第36-39页
    2.5 本文研究的出发点第39-40页
    2.6 本章小结第40-42页
第三章 结合神经自回归分布估计模型的频谱特征状态建模方法第42-62页
    3.1 受限波尔兹曼机第42-47页
        3.1.1 模型结构第43-45页
        3.1.2 模型训练第45-46页
        3.1.3 模型评估第46页
        3.1.4 RBM的众数第46-47页
    3.2 深度置信网络第47-50页
        3.2.1 模型结构第47-48页
        3.2.2 模型训练第48-49页
        3.2.3 DBN的众数第49-50页
    3.3 受限玻尔兹曼机和深度置信网络对频谱特征的状态建模第50-51页
    3.4 神经自回归分布估计模型对频谱特征的状态建模第51-60页
        3.4.1 伯努利-伯努利NADE第51-53页
        3.4.2 高斯-伯努利NADE第53-55页
        3.4.3 结合NADE模型的频谱特征状态建模方法第55-56页
        3.4.4 实验结果及分析第56-60页
    3.5 本章小结第60-62页
第四章 基于深度条件受限玻尔兹曼机的频谱特征全局建模方法第62-78页
    4.1 深度神经网络第62-65页
        4.1.1 模型发展历程第62-63页
        4.1.2 模型结构第63-64页
        4.1.3 模型训练第64-65页
    4.2 基于DNN的统计参数语音合成方法第65-66页
    4.3 现有的基于DNN统计参数语音合成改进方法第66-70页
        4.3.1 针对模型准则的改进第67-68页
        4.3.2 针对模型结构的改进第68-70页
    4.4 深度条件受限玻尔兹曼机对频谱特征的全局建模第70-76页
        4.4.1 条件受限玻尔兹曼机第70-71页
        4.4.2 深度条件受限玻尔兹曼机第71-73页
        4.4.3 结合DCRBM模型的频谱特征全局建模方法第73页
        4.4.4 实验结果及分析第73-76页
    4.5 本章小结第76-78页
第五章 基于DNN的基频特征层次化建模方法第78-110页
    5.1 问题的提出第78-79页
    5.2 现有的基频建模方法第79-85页
        5.2.1 考虑基频分层性和可加性的改进方法第79-83页
        5.2.2 考虑基频长时性效应的改进方法第83-85页
        5.2.3 结合神经网络的基频建模改进方法第85页
    5.3 DNN和决策树对基频特征两韵律层加性建模第85-89页
        5.3.1 方法框架第85-87页
        5.3.2 语调短语基频成分参数化第87-88页
        5.3.3 语调短语基频的DCT建模第88-89页
    5.4 DNN对基频特征多韵律层层次化建模第89-96页
        5.4.1 基本思想第89-91页
        5.4.2 基于DCT的基频矢量提取与包络恢复第91-92页
        5.4.3 层叠式DNN基频建模第92-93页
        5.4.4 并行式DNN基频建模第93-96页
    5.5 实验第96-107页
        5.5.1 实验条件第96页
        5.5.2 基线系统第96-97页
        5.5.3 两韵律层加性基频模型第97-101页
        5.5.4 多韵律层层次化基频模型第101-107页
    5.6 本章小结第107-110页
第六章 基于递归序列生成器的语音合成声学建模方法第110-124页
    6.1 问题的提出第110-111页
    6.2 递归神经网络第111-117页
        6.2.1 基本结构第111-112页
        6.2.2 训练问题第112-113页
        6.2.3 改进的模型结构第113-117页
    6.3 基于注意力的递归序列生成器第117-120页
        6.3.1 模型基本结构第117-119页
        6.3.2 ARSG的改进第119-120页
    6.4 实验第120-123页
        6.4.1 实验条件第120页
        6.4.2 实验结果第120-123页
    6.5 本章小结第123-124页
第七章 总结第124-128页
    7.1 本文的主要贡献与创新点第124-125页
    7.2 后续的研究工作第125-128页
参考文献第128-136页
致谢第136-138页
在读期间发表的学术论文与取得的研究成果第138-139页

论文共139页,点击 下载论文
上一篇:用于自然语言分布式表达的联合学习方法研究
下一篇:中国东北地区汉族人群AdipoQ多态性与冠心病的关联研究