强化学习中状态抽象技术的研究
摘要 | 第1-6页 |
ABSTRACT | 第6-11页 |
1 绪论 | 第11-20页 |
·研究背景 | 第11-12页 |
·过程抽象技术 | 第12-15页 |
·状态抽象技术 | 第15-16页 |
·存在的问题 | 第16-17页 |
·论文的组织 | 第17-19页 |
·本章小结 | 第19-20页 |
2 强化学习理论基础 | 第20-46页 |
·任务环境 | 第20-21页 |
·Markov 性质 | 第21-22页 |
·Markov 决策过程 | 第22-28页 |
·MDP 的定义 | 第22-23页 |
·最优准则 | 第23-24页 |
·值函数及最优值函数 | 第24-28页 |
·MDP 的基本方法 | 第28-42页 |
·动态规划方法 | 第28-32页 |
·Monte Carlo(MC)方法 | 第32-39页 |
·时序差分方法 | 第39-42页 |
·Semi-Markov 决策过程 | 第42-45页 |
·SMDP 的定义 | 第42-43页 |
·值函数与SMDP Bellman 方程 | 第43-44页 |
·SMDP 的基本方法 | 第44-45页 |
·本章小结 | 第45-46页 |
3 基于自组织神经网络的状态抽象方法 | 第46-61页 |
·引言 | 第46-48页 |
·自组织神经网络 | 第48-50页 |
·资格迹 | 第50-53页 |
·n 步TD 预测 | 第51页 |
·前向观点 | 第51-52页 |
·后向观点 | 第52-53页 |
·Actor/Critic 学习框架 | 第53-55页 |
·基于自组织神经网络的状态抽象方法 | 第55-56页 |
·实验结果与分析 | 第56-60页 |
·本章小结 | 第60-61页 |
4 基于层次分解的状态抽象方法 | 第61-80页 |
·引言 | 第61-64页 |
·基于HAMs 体系的层次分解方法 | 第64-72页 |
·SMDPs 的相关概念与问题假设 | 第64-66页 |
·HAMs 体系的分析及其策略耦合的观点 | 第66-70页 |
·策略耦合问题的HAM 层次分解方法 | 第70-72页 |
·ALisp 的三值分解技术 | 第72-75页 |
·基于三值分解的状态抽象 | 第75-76页 |
·一个典型实例的分析 | 第76-79页 |
·本章小结 | 第79-80页 |
5 基于 HAMs 体系的同态变换方法 | 第80-99页 |
·引言 | 第80-82页 |
·基于HAMs 体系的模型同态变换方法 | 第82-93页 |
·HAM 机与option | 第83-84页 |
·HAMs 体系中存在的问题 | 第84-86页 |
·同态变换 | 第86-90页 |
·HAMs 模型的同态变换 | 第90-93页 |
·一个典型实例的分析 | 第93-97页 |
·本章小结 | 第97-99页 |
6 一个面向问题的理论框架及初步应用 | 第99-114页 |
·引言 | 第99页 |
·一个面向问题的理论框架 | 第99-103页 |
·初步应用——NPCs 的行为设计 | 第103-113页 |
·引言 | 第103-105页 |
·基于HAMs 的NPCs 行为设计与分析 | 第105-108页 |
·NPCs 移动行为设计与实现 | 第108-112页 |
·讨论 | 第112-113页 |
·本章小结 | 第113-114页 |
7 结论 | 第114-117页 |
·本文所做的工作 | 第114-115页 |
·进一步的工作考虑 | 第115-117页 |
致谢 | 第117-118页 |
参考文献 | 第118-131页 |
附录1 攻读学位期间发表的论文目录 | 第131-132页 |
附录2 攻读博士学位期间参加过的科研项目 | 第132-133页 |
附录3 攻读学位期间所获科研奖励 | 第133页 |