确定性策略强化学习算法中的行动策略的研究与应用

摘要	第3-4页
Abstract	第4页
1 绪论	第6-12页
1.1 研究意义	第6页
1.2 国内外研究现状	第6-7页
1.3 研究目的	第7-8页
1.4 Pendulum问题简介	第8页
1.5 名词解释与符号说明	第8-10页
1.6 本文结构	第10-12页
2 强化学习的基本原理	第12-29页
2.1 强化学习模型	第12-14页
2.2 经典的强化学习算法	第14-19页
2.3 连续状态空间上的强化学习方法	第19-23页
2.4 强化学习中的其他技术	第23-26页
2.5 神经网络	第26-28页
2.6 本章小结	第28-29页
3 确定性策略梯度算法中的行动策略的研究与应用	第29-39页
3.1 基于值函数比值的探索策略	第29-31页
3.2 基于TD误差的探索策略	第31-32页
3.3 强化探索的确定性策略梯度算法	第32-38页
3.4 本章小结	第38-39页
4 实验与仿真	第39-48页
4.1 实验设计	第39-40页
4.2 仿真实验	第40-45页
4.3 探索力度的比较	第45-47页
4.4 本章小结	第47-48页
5 总结与展望	第48-49页
参考文献	第49-52页
附录：实验程序(Python语言)	第52-69页
致谢	第69页