首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

用于强化学习的值函数逼近方法研究

中文摘要第1-5页
Abstract第5-9页
第一章 引言第9-17页
   ·研究背景及意义第9-11页
   ·研究现状及趋势第11-14页
     ·研究现状第11-13页
     ·研究趋势第13-14页
   ·研究内容第14-16页
   ·论文组织结构第16-17页
第二章 强化学习值函数逼近概述第17-23页
   ·马尔科夫决策过程第17-18页
   ·值函数逼近框架第18-20页
     ·参数化值函数逼近第18-19页
     ·非参数化值函数逼近第19-20页
   ·值函数逼近求解方法第20-22页
     ·梯度下降方法第20-22页
     ·最小二乘回归第22页
   ·本章小结第22-23页
第三章 梯度下降值函数逼近模型的改进第23-36页
   ·改进的梯度下降值函数逼近模型第23-27页
     ·势函数塑造奖赏机制第23-26页
     ·基于势函数塑造奖赏机制的值函数逼近模型第26-27页
   ·NRBF-GD-Sarsa(λ)算法第27-30页
     ·算法描述第27-28页
     ·Tile 编码机制第28-29页
     ·算法收敛性分析第29-30页
   ·仿真实验第30-35页
     ·实验描述第30-32页
     ·实验设置第32-33页
     ·实验分析第33-35页
   ·本章小结第35-36页
第四章 基于 LSSVR 的 Q 值函数分片逼近模型第36-51页
   ·LSSVR-Q 值函数分片逼近模型第36-39页
   ·在线稀疏化样本池构建方法第39-40页
   ·LSSVR-Q 算法第40-41页
   ·仿真实验第41-50页
     ·实验 1:Mountain Car 问题第42-46页
     ·实验 2:DC Motor 问题第46-50页
   ·本章小结第50-51页
第五章 基于 ANRBF 网络的 Q-V 值函数协同逼近模型第51-67页
   ·Q-V 值函数协同机制第51-53页
   ·Q-V 值函数协同逼近模型第53-55页
   ·Q-V 值函数协同逼近算法第55-60页
     ·QV(λ)算法第55-58页
     ·算法收敛性分析第58-60页
   ·仿真实验第60-66页
     ·实验描述第60-61页
     ·实验设置第61页
     ·实验分析第61-66页
   ·本章小结第66-67页
第六章 总结与展望第67-69页
   ·总结第67-68页
   ·展望第68-69页
参考文献第69-74页
攻读硕士学位期间发表(录用)的论文及参与的项目第74-76页
致谢第76-77页

论文共77页,点击 下载论文
上一篇:基于视觉与激光的移动机器人环境识别研究
下一篇:高层住宅小区架空层空间应用与景观设计研究--以苏州工业园区菁华苑小区架空层空间应用与景观设计为例