摘要 | 第1-13页 |
ABSTRACT | 第13-16页 |
第一章 绪论 | 第16-34页 |
·研究背景 | 第16-17页 |
·增强学习的发展现状 | 第17-26页 |
·增强学习算法的发展概况 | 第18-21页 |
·策略梯度增强学习算法 | 第21-23页 |
·增强学习应用的研究进展 | 第23-26页 |
·月球漫游车技术发展概况 | 第26-30页 |
·国外月球车的研究现状 | 第27页 |
·国内月球车的研究现状 | 第27页 |
·月球车的关键技术 | 第27-28页 |
·运动控制中的多轮协调 | 第28-30页 |
·本文的主要研究内容、组织结构和主要贡献 | 第30-34页 |
·本文的主要研究内容 | 第30-31页 |
·论文的组织结构 | 第31-32页 |
·论文的主要贡献 | 第32-34页 |
第二章 策略梯度增强学习的理论框架 | 第34-46页 |
·Markov 决策过程 | 第35-40页 |
·Markov 链 | 第35-37页 |
·Markov 决策过程 | 第37-39页 |
·最优性准则 | 第39-40页 |
·策略梯度增强学习 | 第40-45页 |
·基本概念和基本理论 | 第40-41页 |
·策略梯度算法的收敛条件 | 第41-42页 |
·策略梯度增强学习的统一理论框架 | 第42-44页 |
·现有策略梯度算法的推广 | 第44-45页 |
·小结 | 第45-46页 |
第三章 策略梯度增强学习中的最优回报基线 | 第46-66页 |
·部分可观测Markov 决策模型及其信度状态 | 第46-50页 |
·部分可观测Markov 决策模型 | 第46-48页 |
·信度状态 | 第48页 |
·基于信度状态的Markov 决策过程 | 第48-49页 |
·信度状态MDP 的值函数及其性质 | 第49-50页 |
·POMDP 的无记忆策略 | 第50-56页 |
·无记忆策略的振荡问题 | 第50-51页 |
·求解POMDP 问题的CPnSarsa(λ)算法 | 第51-53页 |
·仿真实验与讨论 | 第53-56页 |
·策略梯度算法中的最优回报基线 | 第56-65页 |
·内部状态和POMDP 的参数化策略 | 第57-58页 |
·策略梯度增强学习中的最优回报基线 | 第58-61页 |
·仿真实验与讨论 | 第61-65页 |
·小结 | 第65-66页 |
第四章 融合先验知识的策略梯度增强学习算法 | 第66-99页 |
·模糊策略梯度增强学习 | 第67-76页 |
·离散行为模糊策略梯度增强学习 | 第67-69页 |
·连续行为模糊策略梯度算法 | 第69-71页 |
·模糊策略梯度算法的收敛性 | 第71-73页 |
·仿真实验与讨论 | 第73-76页 |
·结合SVM 的策略梯度增强学习算法 | 第76-98页 |
·SVM 基本理论 | 第77-80页 |
·离散行为PG-SVM 算法 | 第80-81页 |
·连续行为PG-SVM 算法 | 第81-82页 |
·收敛性证明 | 第82-85页 |
·最优性分析 | 第85-89页 |
·仿真实验与讨论 | 第89-98页 |
·小结 | 第98-99页 |
第五章 策略梯度算法在月球车运动控制中的应用 | 第99-121页 |
·月球车结构与运动控制特点 | 第100-103页 |
·平坦硬质地面控制准则 | 第103-105页 |
·瞬时转向中心 | 第103页 |
·控制法则的建立 | 第103-105页 |
·先验知识的获取 | 第105-112页 |
·正常情况下速度/电流的比值 | 第106-107页 |
·非正常情况下速度/电流的比值 | 第107-112页 |
·利用PG-SVM 混合增强学习的自适应优化控制 | 第112-120页 |
·小结 | 第120-121页 |
第六章 总结与展望 | 第121-124页 |
致谢 | 第124-125页 |
参考文献 | 第125-134页 |
作者在学期间取得的学术成果 | 第134页 |