用于强化学习的值函数逼近方法研究

中文摘要	第1-5页
Abstract	第5-9页
第一章引言	第9-17页
·研究背景及意义	第9-11页
·研究现状及趋势	第11-14页
·研究现状	第11-13页
·研究趋势	第13-14页
·研究内容	第14-16页
·论文组织结构	第16-17页
第二章强化学习值函数逼近概述	第17-23页
·马尔科夫决策过程	第17-18页
·值函数逼近框架	第18-20页
·参数化值函数逼近	第18-19页
·非参数化值函数逼近	第19-20页
·值函数逼近求解方法	第20-22页
·梯度下降方法	第20-22页
·最小二乘回归	第22页
·本章小结	第22-23页
第三章梯度下降值函数逼近模型的改进	第23-36页
·改进的梯度下降值函数逼近模型	第23-27页
·势函数塑造奖赏机制	第23-26页
·基于势函数塑造奖赏机制的值函数逼近模型	第26-27页
·NRBF-GD-Sarsa(λ)算法	第27-30页
·算法描述	第27-28页
·Tile 编码机制	第28-29页
·算法收敛性分析	第29-30页
·仿真实验	第30-35页
·实验描述	第30-32页
·实验设置	第32-33页
·实验分析	第33-35页
·本章小结	第35-36页
第四章基于 LSSVR 的 Q 值函数分片逼近模型	第36-51页
·LSSVR-Q 值函数分片逼近模型	第36-39页
·在线稀疏化样本池构建方法	第39-40页
·LSSVR-Q 算法	第40-41页
·仿真实验	第41-50页
·实验 1：Mountain Car 问题	第42-46页
·实验 2：DC Motor 问题	第46-50页
·本章小结	第50-51页
第五章基于 ANRBF 网络的 Q-V 值函数协同逼近模型	第51-67页
·Q-V 值函数协同机制	第51-53页
·Q-V 值函数协同逼近模型	第53-55页
·Q-V 值函数协同逼近算法	第55-60页
·QV(λ)算法	第55-58页
·算法收敛性分析	第58-60页
·仿真实验	第60-66页
·实验描述	第60-61页
·实验设置	第61页
·实验分析	第61-66页
·本章小结	第66-67页
第六章总结与展望	第67-69页
·总结	第67-68页
·展望	第68-69页
参考文献	第69-74页
攻读硕士学位期间发表（录用）的论文及参与的项目	第74-76页
致谢	第76-77页