首页--数理科学和化学论文--运筹学论文--对策论(博弈论)论文

部分可观察马氏决策过程的复杂性理论及规划算法研究

摘要第1-7页
ABSTRACT第7-9页
目录第9-12页
表格第12-13页
插图第13-14页
算法第14-15页
主要符号对照表第15-17页
第1章 绪论第17-23页
   ·引言第17-20页
   ·本文的主要工作第20-23页
     ·覆盖数作为POMDP模型的复杂性度量第20-21页
     ·基于贪心策略的POMDP离线规划算法第21页
     ·利用因子化和杂合法加速POMDP在线规划算法第21-23页
第2章 部分可观察的马氏决策过程(POMDP)第23-33页
   ·POMDP模型第23-25页
   ·信念状态第25-26页
   ·最优策略的计算方法第26-28页
   ·精确值迭代算法第28-29页
   ·预测状态表示第29-30页
   ·小结第30-33页
第3章 POMDP模型复杂性的覆盖数度量第33-55页
   ·覆盖数第34-35页
   ·计算覆盖数的近似算法第35-41页
     ·宽度优先搜索法第35-37页
     ·改良的宽度优先搜索法第37-39页
     ·随机路径搜索法第39-40页
     ·三种获取可达信念空间子集的方法的优缺点第40页
     ·完全链接聚类法第40-41页
   ·覆盖数与POMDP规划复杂度第41-42页
   ·覆盖数与POMDP学习复杂度第42-44页
   ·基于覆盖数的POMDP学习算法第44-49页
   ·实验结果第49-53页
   ·小结第53-55页
第4章 POMDP模型的离线规划算法第55-77页
   ·基于点的值迭代算法概述第57-63页
     ·基于点的值迭代算法(PBVI)第58页
     ·Perseus算法第58-59页
     ·启发式搜索值迭代算法(HSVI)第59-60页
     ·前向搜索值迭代算法(FSVI)第60页
     ·聚焦的实时动态规划算法(FRTDP)第60页
     ·最优策略可达空间的连续近似法(SARSOP)第60-61页
     ·优先级值迭代算法(PVI)第61页
     ·软聚类值迭代算法(SCVI)第61-62页
     ·盲目策略法第62页
     ·快速通知界法(FIB)第62-63页
   ·基于贪心策略的值迭代算法框架第63-64页
   ·贪心策略SBPG的数学基础第64-67页
   ·基于贪心策略SBPG的框架实现第67-71页
     ·通过分类和误差最小化的启发式搜索第68-69页
     ·第二好的行动选择第69-70页
     ·第二好的策略导向的采样和更新第70-71页
     ·SBPG和主流算法的结合第71页
   ·实验评价第71-75页
     ·实验配置第72页
     ·实验结果第72-75页
   ·小结第75-77页
第5章 POMDP模型的在线规划算法第77-103页
   ·在线规划算法概述第80-82页
   ·利用混合可观察的结构加速在线规划算法第82-87页
     ·MOMDP表示第83-84页
     ·理论分析第84页
     ·因子化操作第84-86页
     ·与现有的因子化方法作比较第86-87页
   ·利用杂合启发法加速在线规划算法第87-92页
     ·现有在线方法里采用的启发式搜索函数第87-89页
     ·使用下界来构造一个启发式搜索函数第89-90页
     ·构造一个杂合的启发式策略第90-92页
   ·主要的实验结果第92-97页
     ·基准问题第93页
     ·在线算法的实时性能比较第93-97页
   ·辅助的实验结果第97-101页
     ·策略搜索函数的性能第97-99页
     ·混合可观察性的影响第99-100页
     ·杂合启发法的影响第100-101页
   ·小结第101-103页
第6章 总结和展望第103-107页
参考文献第107-115页
致谢第115-117页
学术活动第117-119页
在读期间已发表及在投的论文第119页

论文共119页,点击 下载论文
上一篇:输出调节问题的内模与控制器设计研究
下一篇:DNA损伤修复复合物FANCM-MHF和Shu的结构功能研究