首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

强化学习中离策略算法的分析及研究

中文摘要第1-6页
Abstract第6-10页
第一章 绪论第10-21页
   ·引言第10-12页
   ·论文选题与意义第12-13页
   ·国内外研究现状第13-17页
     ·强化学习研究现状第14-16页
     ·离策略算法研究现状第16-17页
   ·本文的研究内容及贡献第17-19页
   ·本文的组织结构第19-21页
第二章 相关工作第21-35页
   ·马尔科夫决策过程第21-24页
   ·强化学习中的经典算法第24-34页
     ·动态规划第24-27页
     ·策略搜索算法第27-28页
     ·时间差分算法第28-34页
   ·本章小结第34-35页
第三章 基于线性函数逼近的离策 Q(Λ)算法第35-52页
   ·离策略强化学习第35-41页
     ·梯度下降法与线性函数逼近第35-38页
     ·离策略强化学习算法第38-41页
   ·GDOP-Q(Λ)算法第41-45页
     ·GDOP-Q(λ)第41-42页
     ·收敛性分析第42-45页
   ·实验结果分析第45-51页
   ·本章小结第51-52页
第四章 基于二阶 TD-ERROR 的 Q(Λ)算法第52-67页
   ·二阶 TD ERROR 快速 Q(Λ)算法第52-61页
     ·二阶 TD Error第52-54页
     ·资格迹第54-55页
     ·SOE-FQ(λ)第55-56页
     ·算法收敛性及时间复杂度分析第56-61页
   ·实验结果分析第61-66页
   ·本章小结第66-67页
第五章 基于值函数迁移的快速 Q-LEARNING 算法第67-81页
   ·自模拟度量与状态之间的距离第68-70页
   ·基于值函数迁移的 Q-LEARNING 算法第70-74页
     ·基于自模拟度量的值函数迁移第71-73页
     ·VFT-Q-Learning第73-74页
   ·实验结果分析第74-80页
   ·本章小结第80-81页
第六章 离策略带参贝叶斯强化学习算法第81-95页
   ·高斯过程第81-82页
   ·基于高斯过程的离策略带参近似策略迭代算法第82-90页
     ·基于高斯过程的值函数参数估计第82-87页
     ·基于 VPI 的动作选择方法第87-88页
     ·GP-OPPAPI第88-90页
   ·实验结果分析第90-94页
   ·本章小结第94-95页
第七章 总结与展望第95-98页
   ·总结第95-96页
   ·展望第96-98页
参考文献第98-105页
博士期间相关科研情况第105-107页
致谢第107-108页

论文共108页,点击 下载论文
上一篇:文档级统计机器翻译的研究
下一篇:基于信用评分模型的小微企业贷款的可获得性研究