基于人工势场的激励学习问题研究
摘要 | 第1-6页 |
ABSTRACT | 第6-10页 |
第一章 引言 | 第10-21页 |
·本文研究的背景 | 第10页 |
·激励学习理论与应用综述 | 第10-20页 |
·激励学习研究的背景 | 第11-13页 |
·激励学习算法的研究进展 | 第13-15页 |
·激励学习的泛化方法研究概况 | 第15-17页 |
·激励学习的理论与应用研究进展 | 第17-19页 |
·存在的问题和本文的研究重点 | 第19-20页 |
·本文内容组织结构 | 第20-21页 |
第二章 激励学习 | 第21-31页 |
·激励学习的理论基础及基本概念 | 第21-25页 |
·马尔可夫决策过程 | 第21-22页 |
·激励学习的几个基本概念 | 第22-24页 |
·激励学习的模型 | 第24-25页 |
·激励学习的目标函数或优化标准 | 第25页 |
·激励学习的基本算法 | 第25-31页 |
·瞬时差分方法 | 第26-27页 |
·Q 学习算法 | 第27-29页 |
·Q 学习存在的问题 | 第29-31页 |
第三章 人工势场 | 第31-36页 |
·人工势场 | 第31-32页 |
·势函数的选取 | 第32-34页 |
·斥力势函数的选取 | 第32-33页 |
·引力势函数的选取 | 第33-34页 |
·全局势场的生成 | 第34页 |
·应用人工势场法的优缺点 | 第34-36页 |
·人工势场法的优点 | 第35页 |
·人工势场法的缺点 | 第35-36页 |
第四章 激励势场模型 | 第36-41页 |
·激励势场模型 | 第36-37页 |
·引力源与斥力源集合的定义 | 第36页 |
·引力势场的描述 | 第36-37页 |
·斥力势场的描述 | 第37页 |
·全局激励势场的生成 | 第37页 |
·虚拟水流法 | 第37-39页 |
·激励势场的算法 | 第39-41页 |
第五章 实验仿真与结果分析 | 第41-55页 |
·完全可观测四房间网格环境 | 第41-45页 |
·问题描述 | 第41-42页 |
·模型描述 | 第42页 |
·应用激励势场模型进行实验的结果 | 第42-43页 |
·与Q 学习进行比较的实验结果 | 第43-45页 |
·部分可观测四房间网格世界环境 | 第45-49页 |
·问题描述 | 第45页 |
·模型描述 | 第45-46页 |
·应用激励势场模型进行实验的结果 | 第46-49页 |
·钥匙与门迷宫问题 | 第49-55页 |
·问题描述 | 第49-50页 |
·模型描述 | 第50-51页 |
·应用激励势场模型进行实验的结果 | 第51-54页 |
·与其它多种学习方法进行比较的实验结果 | 第54-55页 |
结论与展望 | 第55-56页 |
结论 | 第55页 |
研究展望 | 第55-56页 |
参考文献 | 第56-61页 |
致谢 | 第61-62页 |
附录(在学习期间完成的学术论文和参加的科研项目) | 第62页 |