基于贝叶斯理论的行动者评论家算法研究

中文摘要	第4-5页
Abstract	第5-6页
第一章引言	第9-16页
1.1 研究背景及意义	第9-11页
1.2 相关研究现状	第11-13页
1.3 主要工作	第13-14页
1.4 论文组织结构	第14-16页
第二章相关理论概述	第16-32页
2.1 马尔科夫决策过程	第16-18页
2.2 强化学习中的经典算法	第18-29页
2.2.1 动态规划	第19-24页
2.2.2 时间差分算法	第24-27页
2.2.3 行动者评论家算法	第27-29页
2.3 贝叶斯推理	第29-30页
2.4 高斯过程	第30-31页
2.6 本章小结	第31-32页
第三章一种基于高斯过程时间差分的AC算法	第32-45页
3.1 带参高斯过程时间差分方法	第32-34页
3.2 改进的带参高斯过程时间差分模型	第34-36页
3.3 BGPAC算法	第36-38页
3.4 实验结果及分析	第38-44页
3.4.1 实验描述	第39-40页
3.4.2 实验设置	第40页
3.4.3 实验结果及分析	第40-44页
3.5 本章小结	第44-45页
第四章一种基于高斯过程的离策AC算法	第45-58页
4.1 相关理论	第45-49页
4.1.1 离策略强化学习	第45-46页
4.1.2 带资格迹的梯度时间差分方法	第46-49页
4.2 改进的动作值函数概率生成模型	第49-51页
4.3 GPOPAC算法	第51-53页
4.4 实验结果及分析	第53-57页
4.4.1 实验描述	第53-54页
4.4.2 实验设置	第54-55页
4.4.3 实验结果及分析	第55-57页
4.6 本章小结	第57-58页
第五章总结与展望	第58-60页
5.1 本文工作总结	第58-59页
5.2 本文工作展望	第59-60页
参考文献	第60-65页
攻读硕士学位期间公开发表(录用)的论文与科研项目	第65-66页
致谢	第66-68页