基于动作空间划分的分层强化学习研究

摘要	第4-5页
Abstract	第5页
第1章绪论	第6-12页
1.1 研究背景与意义	第6-7页
1.2 研究现状	第7-10页
1.2.1 强化学习的发展历程	第7-8页
1.2.2 分层强化学习研究现状	第8-10页
1.3 论文组织结构	第10-12页
第2章分层强化学习基本理论	第12-28页
2.1 强化学习简介	第12-19页
2.1.1 强化学习框架	第12-13页
2.1.2 马尔可夫决策过程	第13-14页
2.1.3 值函数	第14-16页
2.1.4 强化学习基础方法	第16-19页
2.2 分层强化学习理论	第19-27页
2.2.1 抽象动作	第19-21页
2.2.2 半马尔科夫决策过程	第21-23页
2.2.3 典型的分层强化学习方法	第23-27页
2.3 本章小结	第27-28页
第3章基于动作空间划分的自动分层方法	第28-39页
3.1 自动分层方法概述	第28-30页
3.2 动作空间划分的基本概念	第30-34页
3.2.1 瓶颈动作	第30-31页
3.2.2 初始动作划分	第31-32页
3.2.3 子任务	第32-33页
3.2.4 子任务访问次数	第33-34页
3.3 自动分层算法描述	第34-38页
3.4 本章小结	第38-39页
第4章基于值函数分解的分层强化学习	第39-47页
4.1 值函数分解	第39-42页
4.2 MAXQ强化学习	第42-44页
4.3 基于可用动作的子任务终止条件	第44-45页
4.4 任务结构的动态调整	第45-46页
4.5 本章小结	第46-47页
第5章实验与分析	第47-59页
5.1 实验设置	第47-49页
5.1.1 实验目的	第47页
5.1.2 任务描述与参数设置	第47-49页
5.2 实验结果与分析	第49-58页
5.2.1 实验一	第49-52页
5.2.2 实验二	第52-53页
5.2.3 实验三	第53-58页
5.3 本章小结	第58-59页
第6章总结与展望	第59-61页
6.1 本文总结	第59页
6.2 后续展望	第59-61页
致谢	第61-62页
参考文献	第62-65页
附录	第65-66页
图版	第66页