致谢 | 第5-7页 |
摘要 | 第7-9页 |
Abstract | 第9-11页 |
缩略语 | 第19-20页 |
第1章 绪论 | 第20-34页 |
1.1 研究背景与意义 | 第20-22页 |
1.2 强化学习研究现状 | 第22-30页 |
1.2.1 常规强化学习方法研究现状 | 第23-25页 |
1.2.2 结合专家知识的强化学习研究现状 | 第25-28页 |
1.2.3 国内RL中TL的研究现状 | 第28-29页 |
1.2.4 强化学习应用研究现状 | 第29-30页 |
1.2.5 强化学习及其迁移研究存在的问题 | 第30页 |
1.3 本文主要工作及内容安排 | 第30-34页 |
1.3.1 本文研究工作及贡献 | 第31-32页 |
1.3.2 本文章节安排 | 第32-34页 |
第2章 利用批量递归最小二乘的自然Actor-Critic算法 | 第34-50页 |
2.1 引言 | 第34-35页 |
2.2 自然Actor-Critic结构 | 第35-38页 |
2.2.1 强化学习基础及函数近似 | 第35-36页 |
2.2.2 Actor-Critic强化学习结构 | 第36-37页 |
2.2.3 自然梯度Actor-Critic | 第37-38页 |
2.3 基于批量递归最小二乘的NAC | 第38-42页 |
2.3.1 批量递归最小二乘评估器 | 第38-41页 |
2.3.2 NAC-BRLS算法的完整流程 | 第41-42页 |
2.4 仿真实验 | 第42-47页 |
2.4.1 山地车上坡问题 | 第42-43页 |
2.4.2 仿真效果及分析 | 第43-47页 |
2.4.3 批量数的讨论 | 第47页 |
2.5 本章小结 | 第47-50页 |
第3章 值函数近似中结合对称性的强化学习 | 第50-64页 |
3.1 引言 | 第50-51页 |
3.2 对称强化学习 | 第51-56页 |
3.2.1 对称特殊性 | 第51-53页 |
3.2.2 对称基函数 | 第53-54页 |
3.2.3 收敛性分析 | 第54-55页 |
3.2.4 S-LSPI算法的完整流程 | 第55-56页 |
3.3 仿真实验 | 第56-62页 |
3.3.1 走链条问题 | 第56-58页 |
3.3.2 倒立摆平衡问题 | 第58-62页 |
3.4 本章小结 | 第62-64页 |
第4章 动态运动基元与卷积神经网络结合的示教轨迹分类器 | 第64-76页 |
4.1 引言 | 第64-65页 |
4.2 DMP与CNN结合的分类器 | 第65-70页 |
4.2.1 DMP预处理 | 第66-68页 |
4.2.2 DMP参数的CNN处理 | 第68-70页 |
4.3 仿真实验 | 第70-73页 |
4.4 本章小结 | 第73-76页 |
第5章 基于智能体空间迁移示教知识辅助的强化学习 | 第76-88页 |
5.1 引言 | 第76-77页 |
5.2 基于智能体空间的示教知识迁移 | 第77-82页 |
5.2.1 示教学习 | 第77-78页 |
5.2.2 报酬重塑 | 第78-79页 |
5.2.3 目标状态指示器 | 第79-80页 |
5.2.4 学习报酬塑形函数 | 第80-82页 |
5.3 仿真实验 | 第82-87页 |
5.3.1 源任务 | 第82-84页 |
5.3.2 目标任务 | 第84页 |
5.3.3 迁移对比 | 第84-87页 |
5.4 本章小结 | 第87-88页 |
第6章 基于任务关系映射迁移示教知识辅助的强化学习 | 第88-108页 |
6.1 引言 | 第88页 |
6.2 基于任务映射的知识迁移 | 第88-105页 |
6.2.1 任务间关系映射 | 第88-89页 |
6.2.2 启发探索过程 | 第89-92页 |
6.2.3 仿真实验1 | 第92-96页 |
6.2.4 初始化状态值函数 | 第96-99页 |
6.2.5 仿真实验2 | 第99-105页 |
6.3 本章小结 | 第105-108页 |
第7章 示教轨迹迁移辅助的强化学习无人机路径规划 | 第108-126页 |
7.1 引言 | 第108页 |
7.2 基于示教轨迹泛化的势函数构造 | 第108-114页 |
7.2.1 任务设定 | 第108-110页 |
7.2.2 轨迹泛化 | 第110-113页 |
7.2.3 势函数塑造 | 第113-114页 |
7.3 实验设计 | 第114-115页 |
7.4 仿真效果对比 | 第115-125页 |
7.4.1 二维泛化 | 第117-121页 |
7.4.2 三维泛化 | 第121-125页 |
7.5 本章小结 | 第125-126页 |
第8章 总结与展望 | 第126-130页 |
8.1 论文总结 | 第126-127页 |
8.2 未来工作展望 | 第127-130页 |
参考文献 | 第130-142页 |
作者简历 | 第142页 |
攻读博士学位期间主要的研究成果 | 第142页 |