首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

扩展Markov决策过程的性能灵敏度分析与优化

摘要第1-5页
Abstract第5-11页
第一章 绪论第11-23页
   ·性能优化问题的研究方法第11-12页
   ·基于灵敏度观点的优化第12-14页
   ·半Markov决策过程的研究现状第14页
   ·部分可观Markov决策过程的研究现状第14-19页
   ·本文的研究目的第19-20页
   ·本文的内容第20-21页
   ·本文的主要贡献第21-23页
第二章 Markov决策过程基于灵敏度的性能优化第23-42页
   ·Markov决策过程(MDPs)第23-28页
     ·离散时间和连续时间MDPs第23-24页
     ·决策时刻、历史与策略第24-25页
     ·转移概率矩阵、无穷小矩阵和优化准则第25-27页
     ·MDPs的研究现状第27-28页
   ·Markov过程的灵敏度分析第28-31页
     ·实现因子和性能势第28-29页
     ·性能势的估计第29-30页
     ·性能差与性能导数公式第30-31页
     ·MDPs的最优性方程第31页
   ·性能梯度与基于梯度的优化第31-35页
     ·梯度的估计第32-34页
     ·基于梯度的优化算法第34-35页
   ·策略迭代算法第35-37页
     ·基于理论值的策略迭代第35-36页
     ·基于样本轨道的策略迭代第36-37页
   ·MDPs基于事件的优化第37-42页
第三章 半Markov决策过程与性能灵敏度分析第42-63页
   ·Markov更新过程、半Markov过程及其决策过程第42-46页
     ·Markov更新过程第42-44页
     ·半Markov过程第44-45页
     ·半Markov决策过程第45-46页
   ·平均准则下的灵敏度分析和优化第46-51页
     ·基于离散时间Markov过程的灵敏度分析和优化第46-49页
     ·基于连续时间Markov过程的灵敏度分析和优化第49-51页
   ·折扣准则下的灵敏度分析和优化第51-63页
     ·连续时间Markov过程在折扣准则下的灵敏度分析与优化第51-56页
     ·半Markov决策过程在折扣准则下的灵敏度分析和优化第56-63页
第四章 离散时间POMDP与性能灵敏度分析第63-93页
   ·POMDP的定义及其应用第63-65页
   ·基于观测的策略下的POMDP的灵敏度分析和优化第65-78页
     ·基于观测的策略下的POMDP的灵敏度分析第66-70页
     ·性能灵敏度公式的直观理解第70-71页
     ·POMDP关于基于观测的策略的梯度估计第71-75页
     ·基于观测的策略的策略迭代算法第75-78页
   ·POMDP基于内部状态的灵敏度分析和优化第78-93页
     ·有限状态控制机第78-81页
     ·POMDP基于内部状态的灵敏度分析第81-86页
     ·策略梯度计算与估计第86-89页
     ·策略迭代算法第89-93页
第五章 连续时间POMDP的策略梯度估计第93-100页
   ·连续时间部分可观Markov决策过程第93-94页
   ·连续时间部分可观Markov决策过程的梯度第94-97页
   ·连续时间部分可观Markov决策过程的策略梯度估计第97-100页
第六章 随机切换过程第100-106页
   ·随机切换过程的引入第100-101页
   ·随机切换的连续时间Markov过程第101-103页
   ·随机平稳策略下的连续时间MDPs第103-105页
   ·小结第105-106页
第七章 总结与展望第106-109页
   ·总结第106-107页
   ·展望第107-109页
参考文献第109-117页
致谢第117-118页
攻读博士学位期间的研究成果第118-119页

论文共119页,点击 下载论文
上一篇:昆明鼠孕期人巨细胞病毒原发感染对子代神经行为的影响
下一篇:米根霉L-乳酸高产菌株的选育及发酵条件优化