首页--数理科学和化学论文--运筹学论文--对策论(博弈论)论文

基于部分可观察马尔科夫决策过程的序列规划问题的研究

摘要第4-6页
abstract第6-7页
第一章 绪论第15-21页
    1.1 引言第15-16页
    1.2 POMDP问题求解研究现状第16-18页
    1.3 目前POMDP求解中存在的问题第18-19页
    1.4 本文的主要工作和论文结构第19-21页
第二章 研究背景第21-36页
    2.1 规划问题研究的发展第21-25页
        2.1.1 经典规划第21-24页
        2.1.2 不确定环境中的规划第24-25页
    2.2 MDP模型及其求解第25-30页
        2.2.1 模型定义第26-27页
        2.2.2 策略第27-28页
        2.2.3 值函数和值迭代第28-30页
    2.3 POMDP模型及其求解第30-35页
        2.3.1 模型定义第31页
        2.3.2 决策和信念第31-32页
        2.3.3 值向量和精确值迭代第32-34页
        2.3.4 向量裁剪第34-35页
    2.4 本章小结第35-36页
第三章 一种基于杂合标准的POMDP值迭代求解方法第36-61页
    3.1 引言第36-37页
    3.2 基于点的值迭代方法第37-38页
    3.3 主流基于点的信念空间探索方法第38-47页
        3.3.1 PBVI算法(基于点的值迭代算法)第38-39页
        3.3.2 PEMA算法(基于点的最小误差算法)第39-40页
        3.3.3 类MDP的近似解法第40-42页
        3.3.4 FSVI算法第42页
        3.3.5 HSVI算法第42-43页
        3.3.6 SARSOP算法(最优策略可达空间的连续近似法)第43-45页
        3.3.7 GapMin算法第45-46页
        3.3.8 基于点的值迭代算法的分析第46-47页
    3.4 HHVI算法第47-51页
        3.4.1 算法思想第47-48页
        3.4.2 算法描述第48-50页
        3.4.3 算法分析第50-51页
    3.5 实验和分析第51-59页
        3.5.1 基准问题第51-57页
        3.5.2 实验第57-59页
    3.6 本章小结第59-61页
第四章 一种基于聚类的POMDP策略迭代求解方法第61-78页
    4.1 引言第61-62页
    4.2 基于点的策略迭代第62-66页
        4.2.1 POMDP的策略迭代求解第62-64页
        4.2.2 基于点的策略迭代算法PBPI第64-66页
    4.3 可达信念空间聚类特性的分析第66-72页
        4.3.1 可达信念空间获取方法第66-68页
        4.3.2 可达信念空间聚类分析第68-70页
        4.3.3 基于密度的信念点聚类算法第70-72页
    4.4 CBPI算法第72-75页
        4.4.1 算法思想第72-73页
        4.4.2 算法描述第73-75页
    4.5 实验和分析第75-77页
    4.6 本章小结第77-78页
第五章 一种基于概率最优可达空间迭代的POMDP在线求解方法第78-93页
    5.1 引言第78-80页
    5.2 在线规划算法概述第80-83页
    5.3 最优可达信念空间的求解方法第83-85页
        5.3.1 最优可达信念空间第83-84页
        5.3.2 基于概率的最优可达空间近似方法第84-85页
    5.4 PBORSI算法第85-88页
        5.4.1 算法思想第85-86页
        5.4.2 算法描述第86-88页
    5.5 实验和分析第88-92页
    5.6 本章小结第92-93页
第六章 总结与展望第93-95页
    6.1 论文总结第93-94页
    6.2 下一步的工作第94-95页
致谢第95-96页
参考文献第96-104页
附录第104-105页

论文共105页,点击 下载论文
上一篇:基于网络模体的信号放大研究
下一篇:硫系玻璃的折射率和热光系数调控