部分可观察马氏决策问题的近似规划方法研究

中文摘要	第4-5页
abstract	第5-6页
第一章引言	第10-17页
1.1 研究背景及意义	第10-12页
1.2 研究现状	第12-14页
1.3 研究内容	第14-15页
1.4 论文组织结构	第15-17页
第二章背景知识	第17-26页
2.1 马尔科夫决策过程	第17-19页
2.2 POMDP模型	第19页
2.3 信念状态	第19-21页
2.4 值函数与最优策略的计算方法	第21-22页
2.5 POMDP的基本方法	第22-25页
2.5.1 精确值迭代方法	第22-23页
2.5.2 改进的Perseus算法	第23-25页
2.6 本章小结	第25-26页
第三章面向连续空间POMDP问题的高效算法	第26-40页
3.1 策略图	第26-28页
3.2 面向连续空间POMDP问题的高效算法	第28-34页
3.2.1 连续状态空间的表示方法	第28-29页
3.2.2 连续动作空间的表示方法	第29页
3.2.3 连续观察空间的表示方法	第29-30页
3.2.4 GPG算法	第30-32页
3.2.5 算法分析	第32-34页
3.3 实验及结果分析	第34-39页
3.3.1 一维Corridor问题	第34-36页
3.3.2 Intersection问题	第36-38页
3.3.3 Navigation问题	第38-39页
3.4 本章小结	第39-40页
第四章优化的连续状态蒙特卡罗值迭代算法	第40-54页
4.1 蒙特卡罗值迭代算法	第40-41页
4.1.1 蒙特卡罗更新	第40-41页
4.1.2 蒙特卡罗值迭代算法	第41页
4.2 连续状态POMDP问题的优化算法	第41-48页
4.2.1 OMCVI算法	第41-48页
4.2.2 算法分析	第48页
4.3 实验及结果分析	第48-53页
4.3.1 一维Corridor问题	第49-51页
4.3.2 Music-Chair问题	第51-53页
4.4 本章小结	第53-54页
第五章连续状态大规模观察空间的银杏叶搜索算法	第54-65页
5.1 基于试验的异步值迭代算法	第54-58页
5.1.1 基于试验的搜索和银杏叶搜索	第54-55页
5.1.2 HSVI2算法	第55-57页
5.1.3 SARSOP算法	第57-58页
5.2 连续状态大规模观察空间的银杏叶搜索算法	第58-61页
5.2.1 GLS算法	第58-61页
5.2.2 算法分析	第61页
5.3 实验及结果分析	第61-64页
5.3.1 Gantry Crane问题	第62-64页
5.4 本章小结	第64-65页
第六章总结与展望	第65-67页
6.1 总结	第65-66页
6.2 展望	第66-67页
参考文献	第67-74页
攻读硕士学位期间公开发表(录用)的论文及参与的项目	第74-75页
一、公开发表(录用)的学术论文	第74页
二、参加的科研项目	第74-75页
致谢	第75-77页