部分可观察马氏决策过程的复杂性理论及规划算法研究

摘要	第1-7页
ABSTRACT	第7-9页
目录	第9-12页
表格	第12-13页
插图	第13-14页
算法	第14-15页
主要符号对照表	第15-17页
第1章绪论	第17-23页
·引言	第17-20页
·本文的主要工作	第20-23页
·覆盖数作为POMDP模型的复杂性度量	第20-21页
·基于贪心策略的POMDP离线规划算法	第21页
·利用因子化和杂合法加速POMDP在线规划算法	第21-23页
第2章部分可观察的马氏决策过程(POMDP)	第23-33页
·POMDP模型	第23-25页
·信念状态	第25-26页
·最优策略的计算方法	第26-28页
·精确值迭代算法	第28-29页
·预测状态表示	第29-30页
·小结	第30-33页
第3章 POMDP模型复杂性的覆盖数度量	第33-55页
·覆盖数	第34-35页
·计算覆盖数的近似算法	第35-41页
·宽度优先搜索法	第35-37页
·改良的宽度优先搜索法	第37-39页
·随机路径搜索法	第39-40页
·三种获取可达信念空间子集的方法的优缺点	第40页
·完全链接聚类法	第40-41页
·覆盖数与POMDP规划复杂度	第41-42页
·覆盖数与POMDP学习复杂度	第42-44页
·基于覆盖数的POMDP学习算法	第44-49页
·实验结果	第49-53页
·小结	第53-55页
第4章 POMDP模型的离线规划算法	第55-77页
·基于点的值迭代算法概述	第57-63页
·基于点的值迭代算法(PBVI)	第58页
·Perseus算法	第58-59页
·启发式搜索值迭代算法(HSVI)	第59-60页
·前向搜索值迭代算法(FSVI)	第60页
·聚焦的实时动态规划算法(FRTDP)	第60页
·最优策略可达空间的连续近似法(SARSOP)	第60-61页
·优先级值迭代算法(PVI)	第61页
·软聚类值迭代算法(SCVI)	第61-62页
·盲目策略法	第62页
·快速通知界法(FIB)	第62-63页
·基于贪心策略的值迭代算法框架	第63-64页
·贪心策略SBPG的数学基础	第64-67页
·基于贪心策略SBPG的框架实现	第67-71页
·通过分类和误差最小化的启发式搜索	第68-69页
·第二好的行动选择	第69-70页
·第二好的策略导向的采样和更新	第70-71页
·SBPG和主流算法的结合	第71页
·实验评价	第71-75页
·实验配置	第72页
·实验结果	第72-75页
·小结	第75-77页
第5章 POMDP模型的在线规划算法	第77-103页
·在线规划算法概述	第80-82页
·利用混合可观察的结构加速在线规划算法	第82-87页
·MOMDP表示	第83-84页
·理论分析	第84页
·因子化操作	第84-86页
·与现有的因子化方法作比较	第86-87页
·利用杂合启发法加速在线规划算法	第87-92页
·现有在线方法里采用的启发式搜索函数	第87-89页
·使用下界来构造一个启发式搜索函数	第89-90页
·构造一个杂合的启发式策略	第90-92页
·主要的实验结果	第92-97页
·基准问题	第93页
·在线算法的实时性能比较	第93-97页
·辅助的实验结果	第97-101页
·策略搜索函数的性能	第97-99页
·混合可观察性的影响	第99-100页
·杂合启发法的影响	第100-101页
·小结	第101-103页
第6章总结和展望	第103-107页
参考文献	第107-115页
致谢	第115-117页
学术活动	第117-119页
在读期间已发表及在投的论文	第119页