面向人机交互的强化学习与意图推理
摘要 | 第3-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第10-19页 |
1.1 课题背景及研究意义 | 第10-11页 |
1.2 人机交互技术发展及应用 | 第11-14页 |
1.3 强化学习 | 第14-15页 |
1.3.1 强化学习简述 | 第14页 |
1.3.2 存在的问题及解决途径 | 第14-15页 |
1.4 意图推理 | 第15-16页 |
1.4.1 意图推理概述 | 第15-16页 |
1.4.2 研究现状总结 | 第16页 |
1.5 意图推理与强化学习的融合 | 第16-17页 |
1.6 本文主要内容和章节安排 | 第17-19页 |
第二章 强化学习理论及算法 | 第19-28页 |
2.1 引言 | 第19页 |
2.2 强化学习模型与主要组成要素 | 第19-22页 |
2.2.1 强化学习基本模型 | 第19-20页 |
2.2.2 强化学习主要组成元素 | 第20-22页 |
2.3 马尔可夫决策模型(MDP) | 第22-23页 |
2.4 强化学习基本算法 | 第23-26页 |
2.4.1 瞬时差分算法(TD) | 第24-25页 |
2.4.2 Q学习算法(Q-learning) | 第25-26页 |
2.5 人机交互应用中的关键问题 | 第26-27页 |
2.5.1 泛化问题 | 第26-27页 |
2.5.2 收敛速度 | 第27页 |
2.5.3 强化函数与算法结构设计 | 第27页 |
2.6 本章小结 | 第27-28页 |
第三章 基于强化学习和意图推理的目标跟踪 | 第28-46页 |
3.1 引言 | 第28-30页 |
3.2 系统控制框架与基础理论 | 第30-35页 |
3.2.1 系统控制框架概述 | 第30页 |
3.2.2 粒子滤波 | 第30-33页 |
3.2.3 灰色预测 | 第33-35页 |
3.3 加入意图推理的强化学习算法 | 第35-37页 |
3.4 系统实现与实验 | 第37-45页 |
3.4.1 实验平台 | 第37-39页 |
3.4.2 状态环境的划分 | 第39页 |
3.4.3 机器人动作行为的定义 | 第39-40页 |
3.4.4 奖惩回报函数的设定 | 第40页 |
3.4.5 实验结果与分析 | 第40-45页 |
3.5 本章小结 | 第45-46页 |
第四章 基于意图推理的交互式强化学习 | 第46-68页 |
4.1 引言 | 第46-47页 |
4.2 基本交互式强化学习算法 | 第47-50页 |
4.2.1 交互式强化学习算法 | 第47-48页 |
4.2.2 探索与利用 | 第48-50页 |
4.3 基于贪婪指导的交互式强化学习算法 | 第50-54页 |
4.4 基于意图推理的交互式强化学习算法 | 第54-59页 |
4.4.1 奖惩意图的建模与推理 | 第55-57页 |
4.4.2 指导意图的建模与推理 | 第57-58页 |
4.4.3 算法设计 | 第58-59页 |
4.5 实验设计与结果分析 | 第59-66页 |
4.5.1 实验任务设计 | 第60-62页 |
4.5.2 对比实验设计 | 第62页 |
4.5.3 实验结果与分析 | 第62-66页 |
4.6 本章小结 | 第66-68页 |
第五章 总结与展望 | 第68-70页 |
5.1 论文工作总结 | 第68-69页 |
5.2 研究展望 | 第69-70页 |
参考文献 | 第70-77页 |
致谢 | 第77-78页 |
攻读硕士学位期间已发表或录用的论文 | 第78-80页 |