首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

部分可观察Markov决策过程中基于内部状态的强化学习研究

摘要第1-6页
ABSTRACT第6-7页
致谢第7-8页
目录第8-11页
插图清单第11-12页
表格清单第12-13页
第一章 绪论第13-23页
   ·研究动机第13-14页
   ·Agent强化学习第14-18页
     ·Agent的概念第14-15页
     ·多Agent系统第15-16页
     ·强化学习第16-18页
   ·强化学习的数学模型第18-19页
     ·Markov模型第19页
     ·POMDP模型第19页
   ·国内外研究内现状第19-22页
   ·本文研究内容第22页
   ·本文组织第22-23页
第二章 POMDP模型与基础理论第23-34页
   ·POMDP模型第23-27页
     ·引例第23-24页
     ·POMDP定义第24-26页
     ·长期回报第26-27页
   ·求解POMDP第27-29页
     ·信度状态第27页
     ·求解过程第27-29页
   ·POMDP的主要算法第29-30页
     ·学习值函数方法第29页
     ·策略迭代方法第29-30页
     ·复杂度分析第30页
   ·近似求解算法第30-33页
     ·基于MDP的近似算法第30-31页
     ·Point-based技术第31-32页
     ·Grid-based近似算法第32页
     ·策略梯度方法第32-33页
     ·其它近似算法第33页
   ·本章小结第33-34页
第三章 基于内部状态的策略梯度算法第34-46页
   ·Agent的内部状态第34-36页
     ·一个例子第34页
     ·内部状态的概念第34-35页
     ·状态策略的表示第35-36页
   ·引入内部状态后的POMDP模型第36-37页
     ·定义第36页
     ·相关函数第36-37页
   ·强化学习过程第37-38页
   ·策略梯度算法的基本思想第38-39页
   ·基于内部状态的策略梯度算法第39-42页
     ·回报函数对策略的梯度第39-40页
     ·算法描述第40-42页
   ·实验分析第42-45页
     ·基于模型的实验分析第42-43页
     ·基于PGI-POMDP算法的实验分析第43-45页
   ·本章小结第45-46页
第四章 多Agent策略梯度算法第46-53页
   ·M-POMDP模型第46-48页
     ·定义第46-47页
     ·学习过程第47-48页
   ·多Agent策略梯度算法第48-49页
     ·算法描述第48-49页
     ·复杂度第49页
   ·实验分析第49-52页
     ·实例第49-51页
     ·结果分析第51-52页
   ·本章小结第52-53页
第五章 总结与展望第53-54页
   ·本文工作总结第53页
   ·进一步的工作第53-54页
参考文献第54-58页
研究生期间主要科研工作及成果第58页

论文共58页,点击 下载论文
上一篇:Zygmund空间上的若干算子
下一篇:基于射频识别技术的铁路集装箱堆场管理信息系统的研究与实现