基于人工势场的激励学习问题研究
| 摘要 | 第1-6页 |
| ABSTRACT | 第6-10页 |
| 第一章 引言 | 第10-21页 |
| ·本文研究的背景 | 第10页 |
| ·激励学习理论与应用综述 | 第10-20页 |
| ·激励学习研究的背景 | 第11-13页 |
| ·激励学习算法的研究进展 | 第13-15页 |
| ·激励学习的泛化方法研究概况 | 第15-17页 |
| ·激励学习的理论与应用研究进展 | 第17-19页 |
| ·存在的问题和本文的研究重点 | 第19-20页 |
| ·本文内容组织结构 | 第20-21页 |
| 第二章 激励学习 | 第21-31页 |
| ·激励学习的理论基础及基本概念 | 第21-25页 |
| ·马尔可夫决策过程 | 第21-22页 |
| ·激励学习的几个基本概念 | 第22-24页 |
| ·激励学习的模型 | 第24-25页 |
| ·激励学习的目标函数或优化标准 | 第25页 |
| ·激励学习的基本算法 | 第25-31页 |
| ·瞬时差分方法 | 第26-27页 |
| ·Q 学习算法 | 第27-29页 |
| ·Q 学习存在的问题 | 第29-31页 |
| 第三章 人工势场 | 第31-36页 |
| ·人工势场 | 第31-32页 |
| ·势函数的选取 | 第32-34页 |
| ·斥力势函数的选取 | 第32-33页 |
| ·引力势函数的选取 | 第33-34页 |
| ·全局势场的生成 | 第34页 |
| ·应用人工势场法的优缺点 | 第34-36页 |
| ·人工势场法的优点 | 第35页 |
| ·人工势场法的缺点 | 第35-36页 |
| 第四章 激励势场模型 | 第36-41页 |
| ·激励势场模型 | 第36-37页 |
| ·引力源与斥力源集合的定义 | 第36页 |
| ·引力势场的描述 | 第36-37页 |
| ·斥力势场的描述 | 第37页 |
| ·全局激励势场的生成 | 第37页 |
| ·虚拟水流法 | 第37-39页 |
| ·激励势场的算法 | 第39-41页 |
| 第五章 实验仿真与结果分析 | 第41-55页 |
| ·完全可观测四房间网格环境 | 第41-45页 |
| ·问题描述 | 第41-42页 |
| ·模型描述 | 第42页 |
| ·应用激励势场模型进行实验的结果 | 第42-43页 |
| ·与Q 学习进行比较的实验结果 | 第43-45页 |
| ·部分可观测四房间网格世界环境 | 第45-49页 |
| ·问题描述 | 第45页 |
| ·模型描述 | 第45-46页 |
| ·应用激励势场模型进行实验的结果 | 第46-49页 |
| ·钥匙与门迷宫问题 | 第49-55页 |
| ·问题描述 | 第49-50页 |
| ·模型描述 | 第50-51页 |
| ·应用激励势场模型进行实验的结果 | 第51-54页 |
| ·与其它多种学习方法进行比较的实验结果 | 第54-55页 |
| 结论与展望 | 第55-56页 |
| 结论 | 第55页 |
| 研究展望 | 第55-56页 |
| 参考文献 | 第56-61页 |
| 致谢 | 第61-62页 |
| 附录(在学习期间完成的学术论文和参加的科研项目) | 第62页 |