| 摘要 | 第5-6页 |
| Abstract | 第6页 |
| 第一章 绪论 | 第8-17页 |
| 1.1 引言 | 第8-9页 |
| 1.2 强化学习简介 | 第9-15页 |
| 1.3 面临的问题 | 第15页 |
| 1.4 本文的工作 | 第15-17页 |
| 第二章 值函数方法和策略搜索方法 | 第17-32页 |
| 2.1 引言 | 第17页 |
| 2.2 马尔科夫决策过程 | 第17-19页 |
| 2.3 基于值函数的强化学习方法 | 第19-23页 |
| 2.4 基于策略梯度的强化学习方法 | 第23-31页 |
| 2.5 总结 | 第31-32页 |
| 第三章 基于泛函梯度的策略梯度方法 | 第32-44页 |
| 3.1 引言 | 第32-33页 |
| 3.2 PolicyBoost算法和性质 | 第33-38页 |
| 3.3 实验 | 第38-43页 |
| 3.4 总结 | 第43-44页 |
| 第四章 结束语 | 第44-45页 |
| 参考文献 | 第45-51页 |
| 致谢 | 第51-52页 |
| 附录 | 第52-53页 |