首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于因素化表示的强化学习方法研究

摘要第1-6页
ABSTRACT第6-10页
第一章 绪论第10-15页
   ·本课题的研究背景及意义第10-11页
   ·本课题研究领域的研究动态第11-12页
   ·本文的主要研究内容第12-13页
   ·本文的组织结构第13-15页
第二章 强化学习基本理论第15-25页
   ·Markov 过程与强化学习第15-18页
     ·Markov 过程第15-16页
     ·强化学习模型与基本要素第16-18页
   ·强化学习的几种常用算法第18-21页
   ·瞬时差分算法第21-23页
   ·因素化表示方法第23-24页
   ·本章小结第24-25页
第三章 因素化强化学习的研究第25-36页
   ·动态贝叶斯网络第25-26页
     ·贝叶斯网络第25-26页
     ·动态贝叶斯网络第26页
   ·决策树第26-32页
     ·决策树的基本思想第26-28页
     ·决策树学习的主要算法第28-29页
     ·决策树的生成和剪枝第29-32页
   ·因素化强化学习理论第32-35页
     ·因素化的MDP 状态第32页
     ·动态贝叶斯网络与MDP 模型第32-33页
     ·决策树与MDP 模型第33-35页
   ·本章小结第35-36页
第四章 改进的基于因素化表示的动态规划方法第36-44页
   ·动态规划方法简介第36-37页
   ·决策树的运算第37-38页
     ·决策树剪枝第37页
     ·决策树扩充第37-38页
     ·决策树合并第38页
   ·决策树与DP第38-41页
     ·基于决策树表示的值函数迭代算法描述第39-40页
     ·基于决策树表示的值函数迭代第40-41页
   ·改进的基于因素化表示的DP 方法第41-42页
   ·算法实验与分析第42-43页
   ·本章小结第43-44页
第五章 基于因素化表示的TD 算法第44-54页
   ·MDP 概述第44-46页
   ·MDP 状态空间的精简第46-47页
   ·因素化表示的TD(λ)算法中树的运算第47-49页
   ·算法实现第49-50页
   ·实验与分析第50-53页
   ·本章小结第53-54页
第六章 结论及展望第54-56页
   ·全文总结第54-55页
   ·研究工作展望第55-56页
参考文献第56-61页
致谢第61-62页
附录A(攻读硕士学位期间发表论文情况)第62页

论文共62页,点击 下载论文
上一篇:基于小波和神经网络算法的电力系统短期负荷预测的研究
下一篇:基于规则摄动新度量方法的模糊推理鲁棒性研究