首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

策略梯度增强学习的理论、算法及应用研究

摘要第1-13页
ABSTRACT第13-16页
第一章 绪论第16-34页
   ·研究背景第16-17页
   ·增强学习的发展现状第17-26页
     ·增强学习算法的发展概况第18-21页
     ·策略梯度增强学习算法第21-23页
     ·增强学习应用的研究进展第23-26页
   ·月球漫游车技术发展概况第26-30页
     ·国外月球车的研究现状第27页
     ·国内月球车的研究现状第27页
     ·月球车的关键技术第27-28页
     ·运动控制中的多轮协调第28-30页
   ·本文的主要研究内容、组织结构和主要贡献第30-34页
     ·本文的主要研究内容第30-31页
     ·论文的组织结构第31-32页
     ·论文的主要贡献第32-34页
第二章 策略梯度增强学习的理论框架第34-46页
   ·Markov 决策过程第35-40页
     ·Markov 链第35-37页
     ·Markov 决策过程第37-39页
     ·最优性准则第39-40页
   ·策略梯度增强学习第40-45页
     ·基本概念和基本理论第40-41页
     ·策略梯度算法的收敛条件第41-42页
     ·策略梯度增强学习的统一理论框架第42-44页
     ·现有策略梯度算法的推广第44-45页
   ·小结第45-46页
第三章 策略梯度增强学习中的最优回报基线第46-66页
   ·部分可观测Markov 决策模型及其信度状态第46-50页
     ·部分可观测Markov 决策模型第46-48页
     ·信度状态第48页
     ·基于信度状态的Markov 决策过程第48-49页
     ·信度状态MDP 的值函数及其性质第49-50页
   ·POMDP 的无记忆策略第50-56页
     ·无记忆策略的振荡问题第50-51页
     ·求解POMDP 问题的CPnSarsa(λ)算法第51-53页
     ·仿真实验与讨论第53-56页
   ·策略梯度算法中的最优回报基线第56-65页
     ·内部状态和POMDP 的参数化策略第57-58页
     ·策略梯度增强学习中的最优回报基线第58-61页
     ·仿真实验与讨论第61-65页
   ·小结第65-66页
第四章 融合先验知识的策略梯度增强学习算法第66-99页
   ·模糊策略梯度增强学习第67-76页
     ·离散行为模糊策略梯度增强学习第67-69页
     ·连续行为模糊策略梯度算法第69-71页
     ·模糊策略梯度算法的收敛性第71-73页
     ·仿真实验与讨论第73-76页
   ·结合SVM 的策略梯度增强学习算法第76-98页
     ·SVM 基本理论第77-80页
     ·离散行为PG-SVM 算法第80-81页
     ·连续行为PG-SVM 算法第81-82页
     ·收敛性证明第82-85页
     ·最优性分析第85-89页
     ·仿真实验与讨论第89-98页
   ·小结第98-99页
第五章 策略梯度算法在月球车运动控制中的应用第99-121页
   ·月球车结构与运动控制特点第100-103页
   ·平坦硬质地面控制准则第103-105页
     ·瞬时转向中心第103页
     ·控制法则的建立第103-105页
   ·先验知识的获取第105-112页
     ·正常情况下速度/电流的比值第106-107页
     ·非正常情况下速度/电流的比值第107-112页
   ·利用PG-SVM 混合增强学习的自适应优化控制第112-120页
   ·小结第120-121页
第六章 总结与展望第121-124页
致谢第124-125页
参考文献第125-134页
作者在学期间取得的学术成果第134页

论文共134页,点击 下载论文
上一篇:我国宏观金融效率的分析与评价
下一篇:我国转型时期腐败现象的经济学分析