首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

分层强化学习算法及其应用研究

致谢第1-6页
摘要第6-8页
ABSTRACT第8-15页
1 绪论第15-29页
   ·研究的背景和意义第15-18页
     ·强化学习的动物学习心理学背景第15-16页
     ·强化学习的特点第16-18页
     ·基于强化学习的智能控制方法第18页
   ·强化学习的研究现状第18-23页
     ·强化学习的四个要素的改进第19-22页
     ·分层强化学习第22页
     ·知识传递第22-23页
   ·强化学习存在的问题及解决方法第23-24页
     ·在复杂系统控制中强化学习的学习效率问题第23页
     ·常用的的解决方法及其缺陷第23-24页
   ·本文的主要研究内容和创新点第24-27页
   ·本文的组织结构第27-29页
2 强化学习概述和倒立摆系统介绍第29-45页
   ·强化学习第29-31页
     ·强化学习的MDP模型第29页
     ·强化学习的最优策略第29-30页
     ·强化学习的值迭代方法第30-31页
   ·强化学习的主要算法第31-35页
     ·TD算法第31-32页
     ·AHC算法第32-34页
     ·Q学习算法第34-35页
   ·分层强化学习第35页
     ·分层强化学习的SMDP模型第35页
     ·分层强化学习的最优策略第35页
   ·分层强化学习的主要算法第35-38页
     ·Option算法第36-38页
   ·倒立摆系统和相关研究第38-44页
     ·倒立摆系统简介第38-40页
     ·倒立摆的数学模型第40-42页
     ·倒立摆状态空间方程第42-43页
     ·强化学习算法控制倒立摆的相关研究第43-44页
   ·小结第44-45页
3 倒立摆控制中强化学习的极限环问题第45-55页
   ·引言第45-46页
   ·倒立摆系统控制中控制策略不稳定现象第46-47页
     ·"非平衡位置控制"问题第46-47页
     ·"策略遗忘"问题第47页
   ·倒立摆系统控制中极限环的问题第47-52页
     ·极限环的基本概念第48页
     ·极限环对不同应用任务的影响第48-52页
   ·策略遗忘和非平衡位置控制问题的产生原因第52页
   ·极限环问题被忽视的原因第52-53页
   ·解决极限环问题的方法第53-54页
   ·小结第54-55页
4 基于稳定状态空间的强化学习算法第55-74页
   ·引言第55-56页
   ·在系统控制任务中常用算法的学习效率低问题第56-58页
     ·状态值泛化对算法收敛的影响第56-57页
     ·报酬信号对算法收敛的影响第57-58页
     ·随机探索策略对学习效率的影响第58页
   ·算法的基本思想第58-60页
   ·基于稳定状态空间的状态更新方法第60-62页
     ·稳定状态空间和次优动作第60页
     ·状态预评估准则第60-61页
     ·改进报酬信号第61-62页
   ·基于状态预评估和动作连续性准则的探索策略第62-65页
     ·探索策略的基本思想第62-64页
     ·探索策略的主要步骤第64-65页
   ·自适应划分状态空间方法第65-67页
     ·状态子空间的定义第65-66页
     ·子空间顶点的Q值第66页
     ·状态空间的分裂第66-67页
     ·状态空间的合并第67页
   ·倒立摆实验结果和分析第67-72页
     ·实验参数设置第67-69页
     ·实验结果第69-72页
   ·小结第72-74页
5 基于定性动作的分层Option算法第74-93页
   ·引言第74-75页
   ·探索策略的探索和利用问题第75-77页
     ·问题描述第75页
     ·产生问题的原因第75-76页
     ·常用的解决方法第76页
     ·分时探索策略所存在的问题第76-77页
   ·算法的基本思想第77-79页
     ·系统控制任务的次优策略第77页
     ·算法的框架结构第77-78页
     ·学习次优策略的作用第78-79页
   ·基于定性动作的分步探索策略第79-82页
     ·基于定性动作的SMDP模型第79-80页
     ·基于状态路径的次优定性动作判断准则第80-82页
     ·分步探索策略执行方法第82页
   ·分步探索策略所存在的问题和解决方法第82-87页
     ·次优动作的判断和选择第83-84页
     ·基于平衡状态的极限环检测方法第84-86页
     ·分步探索策略的主要步骤第86-87页
   ·倒立摆实验结果和分析第87-91页
     ·实验设计和参数设置第87-88页
     ·实验结果第88-91页
   ·小结第91-93页
6 基于定性模糊网络的分层强化学习算法第93-108页
   ·引言第93-94页
   ·参数相关任务中常用知识传递方法和存在的问题第94-95页
   ·基于定性模型的知识传递的基本思想第95-97页
     ·基本思想第95-96页
     ·参数相关任务的定性模型第96页
     ·算法的层次结构第96-97页
   ·定性模糊网络的学习方法第97-99页
     ·定性模糊网络的结构第98-99页
     ·定性模糊网络的特点第99页
   ·目标任务中知识传递的实现方法第99-103页
     ·目标任务中状态路径的作用第100页
     ·基于状态路径的报酬信号第100-101页
     ·状态子空间的调整第101-102页
     ·错误报酬信号对学习效率的影响第102页
     ·状态路径与值传递方法的区别第102-103页
   ·实验第103-106页
     ·实验设计和参数第103-104页
     ·实验结果和分析第104-106页
   ·小结第106-108页
7 总结与展望第108-111页
   ·全文工作总结第108-110页
     ·本文的主要研究内容第108-109页
     ·各算法的学习方法比较第109-110页
   ·进一步研究设想第110-111页
参考文献第111-121页
附录A 基于稳定状态空间算法的收敛性证明第121-123页
攻读博士期间完成的论文第123-125页

论文共125页,点击 下载论文
上一篇:混合交通交叉口直行机动车运行特性分析与建模
下一篇:经济转型期我国地区收入差距研究