强化学习中状态抽象技术的研究

摘要	第1-6页
ABSTRACT	第6-11页
1 绪论	第11-20页
·研究背景	第11-12页
·过程抽象技术	第12-15页
·状态抽象技术	第15-16页
·存在的问题	第16-17页
·论文的组织	第17-19页
·本章小结	第19-20页
2 强化学习理论基础	第20-46页
·任务环境	第20-21页
·Markov 性质	第21-22页
·Markov 决策过程	第22-28页
·MDP 的定义	第22-23页
·最优准则	第23-24页
·值函数及最优值函数	第24-28页
·MDP 的基本方法	第28-42页
·动态规划方法	第28-32页
·Monte Carlo(MC)方法	第32-39页
·时序差分方法	第39-42页
·Semi-Markov 决策过程	第42-45页
·SMDP 的定义	第42-43页
·值函数与SMDP Bellman 方程	第43-44页
·SMDP 的基本方法	第44-45页
·本章小结	第45-46页
3 基于自组织神经网络的状态抽象方法	第46-61页
·引言	第46-48页
·自组织神经网络	第48-50页
·资格迹	第50-53页
·n 步TD 预测	第51页
·前向观点	第51-52页
·后向观点	第52-53页
·Actor/Critic 学习框架	第53-55页
·基于自组织神经网络的状态抽象方法	第55-56页
·实验结果与分析	第56-60页
·本章小结	第60-61页
4 基于层次分解的状态抽象方法	第61-80页
·引言	第61-64页
·基于HAMs 体系的层次分解方法	第64-72页
·SMDPs 的相关概念与问题假设	第64-66页
·HAMs 体系的分析及其策略耦合的观点	第66-70页
·策略耦合问题的HAM 层次分解方法	第70-72页
·ALisp 的三值分解技术	第72-75页
·基于三值分解的状态抽象	第75-76页
·一个典型实例的分析	第76-79页
·本章小结	第79-80页
5 基于 HAMs 体系的同态变换方法	第80-99页
·引言	第80-82页
·基于HAMs 体系的模型同态变换方法	第82-93页
·HAM 机与option	第83-84页
·HAMs 体系中存在的问题	第84-86页
·同态变换	第86-90页
·HAMs 模型的同态变换	第90-93页
·一个典型实例的分析	第93-97页
·本章小结	第97-99页
6 一个面向问题的理论框架及初步应用	第99-114页
·引言	第99页
·一个面向问题的理论框架	第99-103页
·初步应用——NPCs 的行为设计	第103-113页
·引言	第103-105页
·基于HAMs 的NPCs 行为设计与分析	第105-108页
·NPCs 移动行为设计与实现	第108-112页
·讨论	第112-113页
·本章小结	第113-114页
7 结论	第114-117页
·本文所做的工作	第114-115页
·进一步的工作考虑	第115-117页
致谢	第117-118页
参考文献	第118-131页
附录1 攻读学位期间发表的论文目录	第131-132页
附录2 攻读博士学位期间参加过的科研项目	第132-133页
附录3 攻读学位期间所获科研奖励	第133页