强化学习中状态抽象技术的研究
| 摘要 | 第1-6页 |
| ABSTRACT | 第6-11页 |
| 1 绪论 | 第11-20页 |
| ·研究背景 | 第11-12页 |
| ·过程抽象技术 | 第12-15页 |
| ·状态抽象技术 | 第15-16页 |
| ·存在的问题 | 第16-17页 |
| ·论文的组织 | 第17-19页 |
| ·本章小结 | 第19-20页 |
| 2 强化学习理论基础 | 第20-46页 |
| ·任务环境 | 第20-21页 |
| ·Markov 性质 | 第21-22页 |
| ·Markov 决策过程 | 第22-28页 |
| ·MDP 的定义 | 第22-23页 |
| ·最优准则 | 第23-24页 |
| ·值函数及最优值函数 | 第24-28页 |
| ·MDP 的基本方法 | 第28-42页 |
| ·动态规划方法 | 第28-32页 |
| ·Monte Carlo(MC)方法 | 第32-39页 |
| ·时序差分方法 | 第39-42页 |
| ·Semi-Markov 决策过程 | 第42-45页 |
| ·SMDP 的定义 | 第42-43页 |
| ·值函数与SMDP Bellman 方程 | 第43-44页 |
| ·SMDP 的基本方法 | 第44-45页 |
| ·本章小结 | 第45-46页 |
| 3 基于自组织神经网络的状态抽象方法 | 第46-61页 |
| ·引言 | 第46-48页 |
| ·自组织神经网络 | 第48-50页 |
| ·资格迹 | 第50-53页 |
| ·n 步TD 预测 | 第51页 |
| ·前向观点 | 第51-52页 |
| ·后向观点 | 第52-53页 |
| ·Actor/Critic 学习框架 | 第53-55页 |
| ·基于自组织神经网络的状态抽象方法 | 第55-56页 |
| ·实验结果与分析 | 第56-60页 |
| ·本章小结 | 第60-61页 |
| 4 基于层次分解的状态抽象方法 | 第61-80页 |
| ·引言 | 第61-64页 |
| ·基于HAMs 体系的层次分解方法 | 第64-72页 |
| ·SMDPs 的相关概念与问题假设 | 第64-66页 |
| ·HAMs 体系的分析及其策略耦合的观点 | 第66-70页 |
| ·策略耦合问题的HAM 层次分解方法 | 第70-72页 |
| ·ALisp 的三值分解技术 | 第72-75页 |
| ·基于三值分解的状态抽象 | 第75-76页 |
| ·一个典型实例的分析 | 第76-79页 |
| ·本章小结 | 第79-80页 |
| 5 基于 HAMs 体系的同态变换方法 | 第80-99页 |
| ·引言 | 第80-82页 |
| ·基于HAMs 体系的模型同态变换方法 | 第82-93页 |
| ·HAM 机与option | 第83-84页 |
| ·HAMs 体系中存在的问题 | 第84-86页 |
| ·同态变换 | 第86-90页 |
| ·HAMs 模型的同态变换 | 第90-93页 |
| ·一个典型实例的分析 | 第93-97页 |
| ·本章小结 | 第97-99页 |
| 6 一个面向问题的理论框架及初步应用 | 第99-114页 |
| ·引言 | 第99页 |
| ·一个面向问题的理论框架 | 第99-103页 |
| ·初步应用——NPCs 的行为设计 | 第103-113页 |
| ·引言 | 第103-105页 |
| ·基于HAMs 的NPCs 行为设计与分析 | 第105-108页 |
| ·NPCs 移动行为设计与实现 | 第108-112页 |
| ·讨论 | 第112-113页 |
| ·本章小结 | 第113-114页 |
| 7 结论 | 第114-117页 |
| ·本文所做的工作 | 第114-115页 |
| ·进一步的工作考虑 | 第115-117页 |
| 致谢 | 第117-118页 |
| 参考文献 | 第118-131页 |
| 附录1 攻读学位期间发表的论文目录 | 第131-132页 |
| 附录2 攻读博士学位期间参加过的科研项目 | 第132-133页 |
| 附录3 攻读学位期间所获科研奖励 | 第133页 |