部分可观察Markov决策过程中基于内部状态的强化学习研究

摘要	第1-6页
ABSTRACT	第6-7页
致谢	第7-8页
目录	第8-11页
插图清单	第11-12页
表格清单	第12-13页
第一章绪论	第13-23页
·研究动机	第13-14页
·Agent强化学习	第14-18页
·Agent的概念	第14-15页
·多Agent系统	第15-16页
·强化学习	第16-18页
·强化学习的数学模型	第18-19页
·Markov模型	第19页
·POMDP模型	第19页
·国内外研究内现状	第19-22页
·本文研究内容	第22页
·本文组织	第22-23页
第二章 POMDP模型与基础理论	第23-34页
·POMDP模型	第23-27页
·引例	第23-24页
·POMDP定义	第24-26页
·长期回报	第26-27页
·求解POMDP	第27-29页
·信度状态	第27页
·求解过程	第27-29页
·POMDP的主要算法	第29-30页
·学习值函数方法	第29页
·策略迭代方法	第29-30页
·复杂度分析	第30页
·近似求解算法	第30-33页
·基于MDP的近似算法	第30-31页
·Point-based技术	第31-32页
·Grid-based近似算法	第32页
·策略梯度方法	第32-33页
·其它近似算法	第33页
·本章小结	第33-34页
第三章基于内部状态的策略梯度算法	第34-46页
·Agent的内部状态	第34-36页
·一个例子	第34页
·内部状态的概念	第34-35页
·状态策略的表示	第35-36页
·引入内部状态后的POMDP模型	第36-37页
·定义	第36页
·相关函数	第36-37页
·强化学习过程	第37-38页
·策略梯度算法的基本思想	第38-39页
·基于内部状态的策略梯度算法	第39-42页
·回报函数对策略的梯度	第39-40页
·算法描述	第40-42页
·实验分析	第42-45页
·基于模型的实验分析	第42-43页
·基于PGI-POMDP算法的实验分析	第43-45页
·本章小结	第45-46页
第四章多Agent策略梯度算法	第46-53页
·M-POMDP模型	第46-48页
·定义	第46-47页
·学习过程	第47-48页
·多Agent策略梯度算法	第48-49页
·算法描述	第48-49页
·复杂度	第49页
·实验分析	第49-52页
·实例	第49-51页
·结果分析	第51-52页
·本章小结	第52-53页
第五章总结与展望	第53-54页
·本文工作总结	第53页
·进一步的工作	第53-54页
参考文献	第54-58页
研究生期间主要科研工作及成果	第58页