分层强化学习算法及其应用研究
致谢 | 第1-6页 |
摘要 | 第6-8页 |
ABSTRACT | 第8-15页 |
1 绪论 | 第15-29页 |
·研究的背景和意义 | 第15-18页 |
·强化学习的动物学习心理学背景 | 第15-16页 |
·强化学习的特点 | 第16-18页 |
·基于强化学习的智能控制方法 | 第18页 |
·强化学习的研究现状 | 第18-23页 |
·强化学习的四个要素的改进 | 第19-22页 |
·分层强化学习 | 第22页 |
·知识传递 | 第22-23页 |
·强化学习存在的问题及解决方法 | 第23-24页 |
·在复杂系统控制中强化学习的学习效率问题 | 第23页 |
·常用的的解决方法及其缺陷 | 第23-24页 |
·本文的主要研究内容和创新点 | 第24-27页 |
·本文的组织结构 | 第27-29页 |
2 强化学习概述和倒立摆系统介绍 | 第29-45页 |
·强化学习 | 第29-31页 |
·强化学习的MDP模型 | 第29页 |
·强化学习的最优策略 | 第29-30页 |
·强化学习的值迭代方法 | 第30-31页 |
·强化学习的主要算法 | 第31-35页 |
·TD算法 | 第31-32页 |
·AHC算法 | 第32-34页 |
·Q学习算法 | 第34-35页 |
·分层强化学习 | 第35页 |
·分层强化学习的SMDP模型 | 第35页 |
·分层强化学习的最优策略 | 第35页 |
·分层强化学习的主要算法 | 第35-38页 |
·Option算法 | 第36-38页 |
·倒立摆系统和相关研究 | 第38-44页 |
·倒立摆系统简介 | 第38-40页 |
·倒立摆的数学模型 | 第40-42页 |
·倒立摆状态空间方程 | 第42-43页 |
·强化学习算法控制倒立摆的相关研究 | 第43-44页 |
·小结 | 第44-45页 |
3 倒立摆控制中强化学习的极限环问题 | 第45-55页 |
·引言 | 第45-46页 |
·倒立摆系统控制中控制策略不稳定现象 | 第46-47页 |
·"非平衡位置控制"问题 | 第46-47页 |
·"策略遗忘"问题 | 第47页 |
·倒立摆系统控制中极限环的问题 | 第47-52页 |
·极限环的基本概念 | 第48页 |
·极限环对不同应用任务的影响 | 第48-52页 |
·策略遗忘和非平衡位置控制问题的产生原因 | 第52页 |
·极限环问题被忽视的原因 | 第52-53页 |
·解决极限环问题的方法 | 第53-54页 |
·小结 | 第54-55页 |
4 基于稳定状态空间的强化学习算法 | 第55-74页 |
·引言 | 第55-56页 |
·在系统控制任务中常用算法的学习效率低问题 | 第56-58页 |
·状态值泛化对算法收敛的影响 | 第56-57页 |
·报酬信号对算法收敛的影响 | 第57-58页 |
·随机探索策略对学习效率的影响 | 第58页 |
·算法的基本思想 | 第58-60页 |
·基于稳定状态空间的状态更新方法 | 第60-62页 |
·稳定状态空间和次优动作 | 第60页 |
·状态预评估准则 | 第60-61页 |
·改进报酬信号 | 第61-62页 |
·基于状态预评估和动作连续性准则的探索策略 | 第62-65页 |
·探索策略的基本思想 | 第62-64页 |
·探索策略的主要步骤 | 第64-65页 |
·自适应划分状态空间方法 | 第65-67页 |
·状态子空间的定义 | 第65-66页 |
·子空间顶点的Q值 | 第66页 |
·状态空间的分裂 | 第66-67页 |
·状态空间的合并 | 第67页 |
·倒立摆实验结果和分析 | 第67-72页 |
·实验参数设置 | 第67-69页 |
·实验结果 | 第69-72页 |
·小结 | 第72-74页 |
5 基于定性动作的分层Option算法 | 第74-93页 |
·引言 | 第74-75页 |
·探索策略的探索和利用问题 | 第75-77页 |
·问题描述 | 第75页 |
·产生问题的原因 | 第75-76页 |
·常用的解决方法 | 第76页 |
·分时探索策略所存在的问题 | 第76-77页 |
·算法的基本思想 | 第77-79页 |
·系统控制任务的次优策略 | 第77页 |
·算法的框架结构 | 第77-78页 |
·学习次优策略的作用 | 第78-79页 |
·基于定性动作的分步探索策略 | 第79-82页 |
·基于定性动作的SMDP模型 | 第79-80页 |
·基于状态路径的次优定性动作判断准则 | 第80-82页 |
·分步探索策略执行方法 | 第82页 |
·分步探索策略所存在的问题和解决方法 | 第82-87页 |
·次优动作的判断和选择 | 第83-84页 |
·基于平衡状态的极限环检测方法 | 第84-86页 |
·分步探索策略的主要步骤 | 第86-87页 |
·倒立摆实验结果和分析 | 第87-91页 |
·实验设计和参数设置 | 第87-88页 |
·实验结果 | 第88-91页 |
·小结 | 第91-93页 |
6 基于定性模糊网络的分层强化学习算法 | 第93-108页 |
·引言 | 第93-94页 |
·参数相关任务中常用知识传递方法和存在的问题 | 第94-95页 |
·基于定性模型的知识传递的基本思想 | 第95-97页 |
·基本思想 | 第95-96页 |
·参数相关任务的定性模型 | 第96页 |
·算法的层次结构 | 第96-97页 |
·定性模糊网络的学习方法 | 第97-99页 |
·定性模糊网络的结构 | 第98-99页 |
·定性模糊网络的特点 | 第99页 |
·目标任务中知识传递的实现方法 | 第99-103页 |
·目标任务中状态路径的作用 | 第100页 |
·基于状态路径的报酬信号 | 第100-101页 |
·状态子空间的调整 | 第101-102页 |
·错误报酬信号对学习效率的影响 | 第102页 |
·状态路径与值传递方法的区别 | 第102-103页 |
·实验 | 第103-106页 |
·实验设计和参数 | 第103-104页 |
·实验结果和分析 | 第104-106页 |
·小结 | 第106-108页 |
7 总结与展望 | 第108-111页 |
·全文工作总结 | 第108-110页 |
·本文的主要研究内容 | 第108-109页 |
·各算法的学习方法比较 | 第109-110页 |
·进一步研究设想 | 第110-111页 |
参考文献 | 第111-121页 |
附录A 基于稳定状态空间算法的收敛性证明 | 第121-123页 |
攻读博士期间完成的论文 | 第123-125页 |