部分可观马尔科夫决策过程直接基于观测的优化方法研究

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第12-20页
1.1 部分可观Markov决策模型的背景	第12-13页
1.2 Markov决策过程基于灵敏度的优化方法现状简述	第13-14页
1.3 部分可观Markov决策过程优化方法简介	第14-17页
1.4 本文的研究内容和意义	第17-19页
1.4.1 研究内容	第17-18页
1.4.2 研究意义	第18-19页
1.5 文章结构	第19-20页
第二章基于灵敏度的Markov决策过程性能优化	第20-30页
2.1 Markov决策过程数学模型	第20-22页
2.1.1 策略的定义	第21页
2.1.2 转移概率矩阵和报酬函数	第21-22页
2.1.3 性能准则	第22页
2.2 Markov过程灵敏度分析	第22-30页
2.2.1 摄动实现因子与性能势	第22-24页
2.2.2 Markov过程性能差公式与性能导数公式	第24-25页
2.2.3 策略迭代	第25-26页
2.2.4 性能势的数值计算方法和估计算法	第26-27页
2.2.5 性能梯度的计算方法	第27页
2.2.6 基于性能梯度的优化算法	第27-28页
2.2.7 本章总结	第28-30页
第三章直接基于观测的POMDPs优化方法	第30-44页
3.1 部分可观Markov决策过程提出原因	第30页
3.2 部分可观Markov决策过程的模型介绍	第30-31页
3.3 部分可观Markov决策过程的策略定义	第31页
3.4 部分可观Markov决策过程基于观测的性能灵敏度分析	第31-37页
3.5 直接基于观测的策略迭代算法	第37-39页
3.6 例子	第39-42页
3.7 本章小结	第42-44页
第四章直接基于观测的大规模POMDPs系统策略迭代算法	第44-58页
4.1 大系统理论的思想和方法	第44-46页
4.2 大规模部分可观Markov决策过程系统模型	第46-47页
4.3 大规模部分可观Markov决策过程的性能灵敏度分析	第47-51页
4.4 大规模部分可观Markov决策过程的分层策略迭代优化算法	第51-52页
4.5 实例验证	第52-56页
4.6 本章小结	第56-58页
第五章总结与展望	第58-60页
5.1 总结	第58-59页
5.2 展望	第59-60页
第六章参考文献	第60-64页
致谢	第64-66页
在读期间发表的学术论文与取得的研究成果	第66页