中文摘要 | 第1-6页 |
Abstract | 第6-10页 |
第一章 绪论 | 第10-21页 |
·引言 | 第10-12页 |
·论文选题与意义 | 第12-13页 |
·国内外研究现状 | 第13-17页 |
·强化学习研究现状 | 第14-16页 |
·离策略算法研究现状 | 第16-17页 |
·本文的研究内容及贡献 | 第17-19页 |
·本文的组织结构 | 第19-21页 |
第二章 相关工作 | 第21-35页 |
·马尔科夫决策过程 | 第21-24页 |
·强化学习中的经典算法 | 第24-34页 |
·动态规划 | 第24-27页 |
·策略搜索算法 | 第27-28页 |
·时间差分算法 | 第28-34页 |
·本章小结 | 第34-35页 |
第三章 基于线性函数逼近的离策 Q(Λ)算法 | 第35-52页 |
·离策略强化学习 | 第35-41页 |
·梯度下降法与线性函数逼近 | 第35-38页 |
·离策略强化学习算法 | 第38-41页 |
·GDOP-Q(Λ)算法 | 第41-45页 |
·GDOP-Q(λ) | 第41-42页 |
·收敛性分析 | 第42-45页 |
·实验结果分析 | 第45-51页 |
·本章小结 | 第51-52页 |
第四章 基于二阶 TD-ERROR 的 Q(Λ)算法 | 第52-67页 |
·二阶 TD ERROR 快速 Q(Λ)算法 | 第52-61页 |
·二阶 TD Error | 第52-54页 |
·资格迹 | 第54-55页 |
·SOE-FQ(λ) | 第55-56页 |
·算法收敛性及时间复杂度分析 | 第56-61页 |
·实验结果分析 | 第61-66页 |
·本章小结 | 第66-67页 |
第五章 基于值函数迁移的快速 Q-LEARNING 算法 | 第67-81页 |
·自模拟度量与状态之间的距离 | 第68-70页 |
·基于值函数迁移的 Q-LEARNING 算法 | 第70-74页 |
·基于自模拟度量的值函数迁移 | 第71-73页 |
·VFT-Q-Learning | 第73-74页 |
·实验结果分析 | 第74-80页 |
·本章小结 | 第80-81页 |
第六章 离策略带参贝叶斯强化学习算法 | 第81-95页 |
·高斯过程 | 第81-82页 |
·基于高斯过程的离策略带参近似策略迭代算法 | 第82-90页 |
·基于高斯过程的值函数参数估计 | 第82-87页 |
·基于 VPI 的动作选择方法 | 第87-88页 |
·GP-OPPAPI | 第88-90页 |
·实验结果分析 | 第90-94页 |
·本章小结 | 第94-95页 |
第七章 总结与展望 | 第95-98页 |
·总结 | 第95-96页 |
·展望 | 第96-98页 |
参考文献 | 第98-105页 |
博士期间相关科研情况 | 第105-107页 |
致谢 | 第107-108页 |