首页--数理科学和化学论文--运筹学论文--对策论(博弈论)论文

部分可观马尔科夫决策过程直接基于观测的优化方法研究

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第12-20页
    1.1 部分可观Markov决策模型的背景第12-13页
    1.2 Markov决策过程基于灵敏度的优化方法现状简述第13-14页
    1.3 部分可观Markov决策过程优化方法简介第14-17页
    1.4 本文的研究内容和意义第17-19页
        1.4.1 研究内容第17-18页
        1.4.2 研究意义第18-19页
    1.5 文章结构第19-20页
第二章 基于灵敏度的Markov决策过程性能优化第20-30页
    2.1 Markov决策过程数学模型第20-22页
        2.1.1 策略的定义第21页
        2.1.2 转移概率矩阵和报酬函数第21-22页
        2.1.3 性能准则第22页
    2.2 Markov过程灵敏度分析第22-30页
        2.2.1 摄动实现因子与性能势第22-24页
        2.2.2 Markov过程性能差公式与性能导数公式第24-25页
        2.2.3 策略迭代第25-26页
        2.2.4 性能势的数值计算方法和估计算法第26-27页
        2.2.5 性能梯度的计算方法第27页
        2.2.6 基于性能梯度的优化算法第27-28页
        2.2.7 本章总结第28-30页
第三章 直接基于观测的POMDPs优化方法第30-44页
    3.1 部分可观Markov决策过程提出原因第30页
    3.2 部分可观Markov决策过程的模型介绍第30-31页
    3.3 部分可观Markov决策过程的策略定义第31页
    3.4 部分可观Markov决策过程基于观测的性能灵敏度分析第31-37页
    3.5 直接基于观测的策略迭代算法第37-39页
    3.6 例子第39-42页
    3.7 本章小结第42-44页
第四章 直接基于观测的大规模POMDPs系统策略迭代算法第44-58页
    4.1 大系统理论的思想和方法第44-46页
    4.2 大规模部分可观Markov决策过程系统模型第46-47页
    4.3 大规模部分可观Markov决策过程的性能灵敏度分析第47-51页
    4.4 大规模部分可观Markov决策过程的分层策略迭代优化算法第51-52页
    4.5 实例验证第52-56页
    4.6 本章小结第56-58页
第五章 总结与展望第58-60页
    5.1 总结第58-59页
    5.2 展望第59-60页
第六章 参考文献第60-64页
致谢第64-66页
在读期间发表的学术论文与取得的研究成果第66页

论文共66页,点击 下载论文
上一篇:Au(110)及Si(111)表面低维结构的扫描隧道显微术研究
下一篇:TK寿险公司养老社区运营研究