摘要 | 第4-6页 |
abstract | 第6-7页 |
第一章 绪论 | 第15-21页 |
1.1 引言 | 第15-16页 |
1.2 POMDP问题求解研究现状 | 第16-18页 |
1.3 目前POMDP求解中存在的问题 | 第18-19页 |
1.4 本文的主要工作和论文结构 | 第19-21页 |
第二章 研究背景 | 第21-36页 |
2.1 规划问题研究的发展 | 第21-25页 |
2.1.1 经典规划 | 第21-24页 |
2.1.2 不确定环境中的规划 | 第24-25页 |
2.2 MDP模型及其求解 | 第25-30页 |
2.2.1 模型定义 | 第26-27页 |
2.2.2 策略 | 第27-28页 |
2.2.3 值函数和值迭代 | 第28-30页 |
2.3 POMDP模型及其求解 | 第30-35页 |
2.3.1 模型定义 | 第31页 |
2.3.2 决策和信念 | 第31-32页 |
2.3.3 值向量和精确值迭代 | 第32-34页 |
2.3.4 向量裁剪 | 第34-35页 |
2.4 本章小结 | 第35-36页 |
第三章 一种基于杂合标准的POMDP值迭代求解方法 | 第36-61页 |
3.1 引言 | 第36-37页 |
3.2 基于点的值迭代方法 | 第37-38页 |
3.3 主流基于点的信念空间探索方法 | 第38-47页 |
3.3.1 PBVI算法(基于点的值迭代算法) | 第38-39页 |
3.3.2 PEMA算法(基于点的最小误差算法) | 第39-40页 |
3.3.3 类MDP的近似解法 | 第40-42页 |
3.3.4 FSVI算法 | 第42页 |
3.3.5 HSVI算法 | 第42-43页 |
3.3.6 SARSOP算法(最优策略可达空间的连续近似法) | 第43-45页 |
3.3.7 GapMin算法 | 第45-46页 |
3.3.8 基于点的值迭代算法的分析 | 第46-47页 |
3.4 HHVI算法 | 第47-51页 |
3.4.1 算法思想 | 第47-48页 |
3.4.2 算法描述 | 第48-50页 |
3.4.3 算法分析 | 第50-51页 |
3.5 实验和分析 | 第51-59页 |
3.5.1 基准问题 | 第51-57页 |
3.5.2 实验 | 第57-59页 |
3.6 本章小结 | 第59-61页 |
第四章 一种基于聚类的POMDP策略迭代求解方法 | 第61-78页 |
4.1 引言 | 第61-62页 |
4.2 基于点的策略迭代 | 第62-66页 |
4.2.1 POMDP的策略迭代求解 | 第62-64页 |
4.2.2 基于点的策略迭代算法PBPI | 第64-66页 |
4.3 可达信念空间聚类特性的分析 | 第66-72页 |
4.3.1 可达信念空间获取方法 | 第66-68页 |
4.3.2 可达信念空间聚类分析 | 第68-70页 |
4.3.3 基于密度的信念点聚类算法 | 第70-72页 |
4.4 CBPI算法 | 第72-75页 |
4.4.1 算法思想 | 第72-73页 |
4.4.2 算法描述 | 第73-75页 |
4.5 实验和分析 | 第75-77页 |
4.6 本章小结 | 第77-78页 |
第五章 一种基于概率最优可达空间迭代的POMDP在线求解方法 | 第78-93页 |
5.1 引言 | 第78-80页 |
5.2 在线规划算法概述 | 第80-83页 |
5.3 最优可达信念空间的求解方法 | 第83-85页 |
5.3.1 最优可达信念空间 | 第83-84页 |
5.3.2 基于概率的最优可达空间近似方法 | 第84-85页 |
5.4 PBORSI算法 | 第85-88页 |
5.4.1 算法思想 | 第85-86页 |
5.4.2 算法描述 | 第86-88页 |
5.5 实验和分析 | 第88-92页 |
5.6 本章小结 | 第92-93页 |
第六章 总结与展望 | 第93-95页 |
6.1 论文总结 | 第93-94页 |
6.2 下一步的工作 | 第94-95页 |
致谢 | 第95-96页 |
参考文献 | 第96-104页 |
附录 | 第104-105页 |