基于连续动作空间的行动者评论家方法研究

中文摘要	第4-6页
abstract	第6-7页
第一章引言	第10-17页
1.1 研究背景及意义	第10-12页
1.2 研究现状	第12-14页
1.3 研究内容	第14-15页
1.4 论文组织结构	第15-17页
第二章基础理论概述	第17-23页
2.1 强化学习问题	第17页
2.2 马尔可夫决策过程	第17-18页
2.3 探索方法	第18-19页
2.4 行动者评论家方法	第19-20页
2.5 值函数逼近方法	第20-23页
第三章动作加权行动者评论家算法	第23-43页
3.1 策略表示	第23-25页
3.2 最优动作表示	第25-26页
3.3 函数逼近方法	第26-28页
3.4 算法描述和相关比较	第28-30页
3.5 收敛性分析	第30-32页
3.6 实验结果分析	第32-42页
3.6.1 平衡杆	第32-36页
3.6.2 水洼世界	第36-39页
3.6.3 小车爬坡实验	第39-42页
3.7 本章小节	第42-43页
第四章增量式双自然策略梯度的行动者评论家算法	第43-59页
4.1 策略梯度方法	第43-44页
4.2 自然策略梯度	第44-47页
4.3 算法描述	第47-49页
4.4 实验结果分析	第49-58页
4.4.1 平衡杆	第49-52页
4.4.2 小车爬坡实验	第52-55页
4.4.3 水洼世界	第55-58页
4.5 本章小节	第58-59页
第五章基于二重值函数的行动者评论家算法	第59-68页
5.1 最大化值偏差	第59-60页
5.2 双重值函数学习算法	第60-61页
5.3 基于二重值函数的行动者评论家算法	第61-64页
5.4 实验结果分析	第64-67页
5.5 本章小节	第67-68页
第六章总结与展望	第68-71页
6.1 总结	第68-69页
6.2 展望	第69-71页
参考文献	第71-76页
攻读硕士学位期间公开发表(录用)的论文及参与的项目	第76-78页
一、公开发表(录用)的学术论文	第76页
二、参加的科研项目	第76-78页
致谢	第78-79页