基于直接策略搜索的强化学习方法研究

摘要	第4-5页
Abstrad	第5页
第一章绪论	第7-14页
1.1 引言	第7-8页
1.2 强化学习简介	第8-12页
1.3 待研究的问题	第12页
1.4 本文工作和组织结构	第12-14页
第二章基于弱策略自学习的强化学习算法	第14-27页
2.1 引言	第14页
2.2 相关工作	第14-15页
2.3 LEWE方法	第15-20页
2.4 实验测试	第20-26页
2.5 小结	第26-27页
第三章基于泛函策略梯度的快速强化学习算法	第27-37页
3.1 引言	第27页
3.2 相关工作	第27-29页
3.3 Napping方法	第29-32页
3.4 实验测试	第32-36页
3.5 小结	第36-37页
第四章强化学习中的元策略学习	第37-50页
4.1 引言	第37-38页
4.2 相关工作	第38页
4.3 MAPLE方法	第38-43页
4.4 实验测试	第43-49页
4.5 小结	第49-50页
第五章浇花小车演示系统	第50-55页
5.1 引言	第50-51页
5.2 系统设计和实现	第51-54页
5.3 小结	第54-55页
第六章结束语	第55-57页
参考文献	第57-66页
致谢	第66-67页
附录	第67-68页