基于直接策略搜索的强化学习方法研究
摘要 | 第4-5页 |
Abstrad | 第5页 |
第一章 绪论 | 第7-14页 |
1.1 引言 | 第7-8页 |
1.2 强化学习简介 | 第8-12页 |
1.3 待研究的问题 | 第12页 |
1.4 本文工作和组织结构 | 第12-14页 |
第二章 基于弱策略自学习的强化学习算法 | 第14-27页 |
2.1 引言 | 第14页 |
2.2 相关工作 | 第14-15页 |
2.3 LEWE方法 | 第15-20页 |
2.4 实验测试 | 第20-26页 |
2.5 小结 | 第26-27页 |
第三章 基于泛函策略梯度的快速强化学习算法 | 第27-37页 |
3.1 引言 | 第27页 |
3.2 相关工作 | 第27-29页 |
3.3 Napping方法 | 第29-32页 |
3.4 实验测试 | 第32-36页 |
3.5 小结 | 第36-37页 |
第四章 强化学习中的元策略学习 | 第37-50页 |
4.1 引言 | 第37-38页 |
4.2 相关工作 | 第38页 |
4.3 MAPLE方法 | 第38-43页 |
4.4 实验测试 | 第43-49页 |
4.5 小结 | 第49-50页 |
第五章 浇花小车演示系统 | 第50-55页 |
5.1 引言 | 第50-51页 |
5.2 系统设计和实现 | 第51-54页 |
5.3 小结 | 第54-55页 |
第六章 结束语 | 第55-57页 |
参考文献 | 第57-66页 |
致谢 | 第66-67页 |
附录 | 第67-68页 |