摘要 | 第3-4页 |
abstract | 第4-5页 |
主要符号对照表 | 第12-14页 |
第1章 引言 | 第14-20页 |
1.1 研究背景与意义 | 第14-16页 |
1.2 本文的主要研究内容与贡献 | 第16-20页 |
1.2.1 研究内容与各章简介 | 第16-18页 |
1.2.2 本文主要贡献 | 第18-20页 |
第2章 相关工作与研究现状 | 第20-32页 |
2.1 相关理论及技术 | 第20-25页 |
2.1.1 特征依赖关系建模方法 | 第20-22页 |
2.1.2 上下文依赖关系建模方法 | 第22-25页 |
2.2 现有的焦点重音检测方法 | 第25-26页 |
2.2.1 人工标注方法 | 第25页 |
2.2.2 基于分类模型的焦点重音检测方法 | 第25-26页 |
2.3 现有的用户意图理解方法 | 第26-28页 |
2.3.1 基于文本内容的用户意图理解 | 第26-27页 |
2.3.2 基于语音信息的用户意图理解 | 第27页 |
2.3.3 基于用户行为的意图理解 | 第27-28页 |
2.4 现有的反馈生成方法 | 第28-29页 |
2.4.1 规则驱动的反馈生成 | 第29页 |
2.4.2 基于统计模型的反馈生成 | 第29页 |
2.5 现有的焦点重音生成方法 | 第29-31页 |
2.5.1 带有焦点标注的波形拼接合成 | 第29-30页 |
2.5.2 参数化的焦点重音生成 | 第30-31页 |
2.6 本章小结 | 第31-32页 |
第3章 基于感知属性的焦点重音检测 | 第32-46页 |
3.1 本章引论 | 第32-33页 |
3.2 焦点重音相关的声学特征 | 第33-35页 |
3.2.1 全局声学特征 | 第33-34页 |
3.2.2 局部语调特征 | 第34-35页 |
3.3 特定风格焦点语料下焦点重音检测 | 第35-37页 |
3.3.1 基于贝叶斯网络的焦点重音检测模型 | 第35-36页 |
3.3.2 模型框架 | 第36-37页 |
3.4 互联网语音数据焦点重音检测 | 第37-39页 |
3.4.1 基于多语言BLSTM的焦点重音检测模型 | 第37-38页 |
3.4.2 模型训练 | 第38-39页 |
3.5 实验及结果分析 | 第39-44页 |
3.5.1 实验语料库 | 第39-40页 |
3.5.2 实验设置 | 第40-41页 |
3.5.3 特征相关性影响实验 | 第41页 |
3.5.4 特征贡献分析实验 | 第41-42页 |
3.5.5 上下文依赖关系影响实验 | 第42-43页 |
3.5.6 跨语言知识影响实验 | 第43页 |
3.5.7 补充数据影响实验 | 第43-44页 |
3.5.8 模型网络结构比较实验 | 第44页 |
3.6 本章小结 | 第44-46页 |
第4章 语音交互系统中的用户意图理解 | 第46-62页 |
4.1 本章引论 | 第46-48页 |
4.2 问题定义 | 第48-49页 |
4.3 数据观察 | 第49-52页 |
4.3.1 焦点和重音之间的关系 | 第50页 |
4.3.2 焦点/重音与用户意图之间的相关性 | 第50-51页 |
4.3.3 用户位置与意图突显之间的相关性 | 第51-52页 |
4.3.4 观察结论 | 第52页 |
4.4 语音交互系统中的用户意图理解框架 | 第52-55页 |
4.4.1 基于多任务深度学习的焦点和重音检测 | 第53-54页 |
4.4.2 意图突显预测 | 第54-55页 |
4.5 实验及结果分析 | 第55-61页 |
4.5.1 实验数据集 | 第55-56页 |
4.5.2 实验设置 | 第56页 |
4.5.3 模型性能比较实验 | 第56-59页 |
4.5.4 无标注数据规模分析实验 | 第59页 |
4.5.5 模型网络结构与效率比较实验 | 第59-60页 |
4.5.6 模型实用性分析实验 | 第60-61页 |
4.6 误差分析 | 第61页 |
4.7 本章小结 | 第61-62页 |
第5章 语音交互系统中的焦点重音生成 | 第62-75页 |
5.1 本章引论 | 第62-63页 |
5.2 焦点重音的声学分析 | 第63-65页 |
5.2.1 焦点重音分类 | 第63-64页 |
5.2.2 焦点重音的声学特征分析 | 第64-65页 |
5.3 基于决策树上下文参数的焦点重音合成 | 第65-68页 |
5.3.1 上下文信息 | 第65-66页 |
5.3.2 上下文决策树聚类 | 第66-67页 |
5.3.3 HMM选取 | 第67-68页 |
5.3.4 参数补偿 | 第68页 |
5.4 基于改进上下文模型的焦点重音合成 | 第68-71页 |
5.4.1 焦点重音合成框架 | 第68-69页 |
5.4.2 改进的上下文模型 | 第69-71页 |
5.5 实验及结果分析 | 第71-74页 |
5.5.1 实验语料库 | 第72-73页 |
5.5.2 焦点重音感知实验 | 第73页 |
5.5.3 音质效果比较实验 | 第73-74页 |
5.6 本章小结 | 第74-75页 |
第6章 语音交互系统中的反馈生成及应用 | 第75-85页 |
6.1 本章引论 | 第75-76页 |
6.2 基于语料库的协同反馈生成 | 第76-79页 |
6.2.1 数据收集 | 第76页 |
6.2.2 半自动语义成分标注 | 第76-77页 |
6.2.3 反馈消息规划与实现 | 第77-78页 |
6.2.4 存在的问题 | 第78-79页 |
6.3 基于用户意图理解的反馈生成 | 第79-80页 |
6.3.1 语义扩展 | 第79页 |
6.3.2 反馈消息规划与实现 | 第79-80页 |
6.4 智能语音交互系统的技术架构 | 第80-81页 |
6.5 实验及结果分析 | 第81-84页 |
6.5.1 实验设置 | 第81页 |
6.5.2 目标任务完成程度评估实验 | 第81-82页 |
6.5.3 用户意图理解程度评估实验 | 第82-83页 |
6.5.4 用户满意度评估实验 | 第83-84页 |
6.6 本章小结 | 第84-85页 |
第7章 结论与展望 | 第85-89页 |
7.1 论文工作总结 | 第85-87页 |
7.2 进一步工作展望 | 第87-89页 |
参考文献 | 第89-97页 |
致谢 | 第97-99页 |
个人简历、在学期间发表的学术论文与研究成果 | 第99-101页 |