摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第12-20页 |
1.1 部分可观Markov决策模型的背景 | 第12-13页 |
1.2 Markov决策过程基于灵敏度的优化方法现状简述 | 第13-14页 |
1.3 部分可观Markov决策过程优化方法简介 | 第14-17页 |
1.4 本文的研究内容和意义 | 第17-19页 |
1.4.1 研究内容 | 第17-18页 |
1.4.2 研究意义 | 第18-19页 |
1.5 文章结构 | 第19-20页 |
第二章 基于灵敏度的Markov决策过程性能优化 | 第20-30页 |
2.1 Markov决策过程数学模型 | 第20-22页 |
2.1.1 策略的定义 | 第21页 |
2.1.2 转移概率矩阵和报酬函数 | 第21-22页 |
2.1.3 性能准则 | 第22页 |
2.2 Markov过程灵敏度分析 | 第22-30页 |
2.2.1 摄动实现因子与性能势 | 第22-24页 |
2.2.2 Markov过程性能差公式与性能导数公式 | 第24-25页 |
2.2.3 策略迭代 | 第25-26页 |
2.2.4 性能势的数值计算方法和估计算法 | 第26-27页 |
2.2.5 性能梯度的计算方法 | 第27页 |
2.2.6 基于性能梯度的优化算法 | 第27-28页 |
2.2.7 本章总结 | 第28-30页 |
第三章 直接基于观测的POMDPs优化方法 | 第30-44页 |
3.1 部分可观Markov决策过程提出原因 | 第30页 |
3.2 部分可观Markov决策过程的模型介绍 | 第30-31页 |
3.3 部分可观Markov决策过程的策略定义 | 第31页 |
3.4 部分可观Markov决策过程基于观测的性能灵敏度分析 | 第31-37页 |
3.5 直接基于观测的策略迭代算法 | 第37-39页 |
3.6 例子 | 第39-42页 |
3.7 本章小结 | 第42-44页 |
第四章 直接基于观测的大规模POMDPs系统策略迭代算法 | 第44-58页 |
4.1 大系统理论的思想和方法 | 第44-46页 |
4.2 大规模部分可观Markov决策过程系统模型 | 第46-47页 |
4.3 大规模部分可观Markov决策过程的性能灵敏度分析 | 第47-51页 |
4.4 大规模部分可观Markov决策过程的分层策略迭代优化算法 | 第51-52页 |
4.5 实例验证 | 第52-56页 |
4.6 本章小结 | 第56-58页 |
第五章 总结与展望 | 第58-60页 |
5.1 总结 | 第58-59页 |
5.2 展望 | 第59-60页 |
第六章 参考文献 | 第60-64页 |
致谢 | 第64-66页 |
在读期间发表的学术论文与取得的研究成果 | 第66页 |