首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

强化学习中状态抽象技术的研究

摘要第1-6页
ABSTRACT第6-11页
1 绪论第11-20页
   ·研究背景第11-12页
   ·过程抽象技术第12-15页
   ·状态抽象技术第15-16页
   ·存在的问题第16-17页
   ·论文的组织第17-19页
   ·本章小结第19-20页
2 强化学习理论基础第20-46页
   ·任务环境第20-21页
   ·Markov 性质第21-22页
   ·Markov 决策过程第22-28页
     ·MDP 的定义第22-23页
     ·最优准则第23-24页
     ·值函数及最优值函数第24-28页
   ·MDP 的基本方法第28-42页
     ·动态规划方法第28-32页
     ·Monte Carlo(MC)方法第32-39页
     ·时序差分方法第39-42页
   ·Semi-Markov 决策过程第42-45页
     ·SMDP 的定义第42-43页
     ·值函数与SMDP Bellman 方程第43-44页
     ·SMDP 的基本方法第44-45页
   ·本章小结第45-46页
3 基于自组织神经网络的状态抽象方法第46-61页
   ·引言第46-48页
   ·自组织神经网络第48-50页
   ·资格迹第50-53页
     ·n 步TD 预测第51页
     ·前向观点第51-52页
     ·后向观点第52-53页
   ·Actor/Critic 学习框架第53-55页
   ·基于自组织神经网络的状态抽象方法第55-56页
   ·实验结果与分析第56-60页
   ·本章小结第60-61页
4 基于层次分解的状态抽象方法第61-80页
   ·引言第61-64页
   ·基于HAMs 体系的层次分解方法第64-72页
     ·SMDPs 的相关概念与问题假设第64-66页
     ·HAMs 体系的分析及其策略耦合的观点第66-70页
     ·策略耦合问题的HAM 层次分解方法第70-72页
   ·ALisp 的三值分解技术第72-75页
   ·基于三值分解的状态抽象第75-76页
   ·一个典型实例的分析第76-79页
   ·本章小结第79-80页
5 基于 HAMs 体系的同态变换方法第80-99页
   ·引言第80-82页
   ·基于HAMs 体系的模型同态变换方法第82-93页
     ·HAM 机与option第83-84页
     ·HAMs 体系中存在的问题第84-86页
     ·同态变换第86-90页
     ·HAMs 模型的同态变换第90-93页
   ·一个典型实例的分析第93-97页
   ·本章小结第97-99页
6 一个面向问题的理论框架及初步应用第99-114页
   ·引言第99页
   ·一个面向问题的理论框架第99-103页
   ·初步应用——NPCs 的行为设计第103-113页
     ·引言第103-105页
     ·基于HAMs 的NPCs 行为设计与分析第105-108页
     ·NPCs 移动行为设计与实现第108-112页
     ·讨论第112-113页
   ·本章小结第113-114页
7 结论第114-117页
   ·本文所做的工作第114-115页
   ·进一步的工作考虑第115-117页
致谢第117-118页
参考文献第118-131页
附录1 攻读学位期间发表的论文目录第131-132页
附录2 攻读博士学位期间参加过的科研项目第132-133页
附录3 攻读学位期间所获科研奖励第133页

论文共133页,点击 下载论文
上一篇:农地金融制度理论模型经济计量分析--广西样本点实证研究
下一篇:9-12岁儿童估算策略选择的发展研究