基于泛函梯度的策略梯度方法的研究

摘要	第5-6页
Abstract	第6页
第一章绪论	第8-17页
1.1 引言	第8-9页
1.2 强化学习简介	第9-15页
1.3 面临的问题	第15页
1.4 本文的工作	第15-17页
第二章值函数方法和策略搜索方法	第17-32页
2.1 引言	第17页
2.2 马尔科夫决策过程	第17-19页
2.3 基于值函数的强化学习方法	第19-23页
2.4 基于策略梯度的强化学习方法	第23-31页
2.5 总结	第31-32页
第三章基于泛函梯度的策略梯度方法	第32-44页
3.1 引言	第32-33页
3.2 PolicyBoost算法和性质	第33-38页
3.3 实验	第38-43页
3.4 总结	第43-44页
第四章结束语	第44-45页
参考文献	第45-51页
致谢	第51-52页
附录	第52-53页