摘要 | 第5-6页 |
Abstract | 第6页 |
第一章 绪论 | 第8-17页 |
1.1 引言 | 第8-9页 |
1.2 强化学习简介 | 第9-15页 |
1.3 面临的问题 | 第15页 |
1.4 本文的工作 | 第15-17页 |
第二章 值函数方法和策略搜索方法 | 第17-32页 |
2.1 引言 | 第17页 |
2.2 马尔科夫决策过程 | 第17-19页 |
2.3 基于值函数的强化学习方法 | 第19-23页 |
2.4 基于策略梯度的强化学习方法 | 第23-31页 |
2.5 总结 | 第31-32页 |
第三章 基于泛函梯度的策略梯度方法 | 第32-44页 |
3.1 引言 | 第32-33页 |
3.2 PolicyBoost算法和性质 | 第33-38页 |
3.3 实验 | 第38-43页 |
3.4 总结 | 第43-44页 |
第四章 结束语 | 第44-45页 |
参考文献 | 第45-51页 |
致谢 | 第51-52页 |
附录 | 第52-53页 |