扩展Markov决策过程的性能灵敏度分析与优化

摘要	第1-5页
Abstract	第5-11页
第一章绪论	第11-23页
·性能优化问题的研究方法	第11-12页
·基于灵敏度观点的优化	第12-14页
·半Markov决策过程的研究现状	第14页
·部分可观Markov决策过程的研究现状	第14-19页
·本文的研究目的	第19-20页
·本文的内容	第20-21页
·本文的主要贡献	第21-23页
第二章 Markov决策过程基于灵敏度的性能优化	第23-42页
·Markov决策过程(MDPs)	第23-28页
·离散时间和连续时间MDPs	第23-24页
·决策时刻、历史与策略	第24-25页
·转移概率矩阵、无穷小矩阵和优化准则	第25-27页
·MDPs的研究现状	第27-28页
·Markov过程的灵敏度分析	第28-31页
·实现因子和性能势	第28-29页
·性能势的估计	第29-30页
·性能差与性能导数公式	第30-31页
·MDPs的最优性方程	第31页
·性能梯度与基于梯度的优化	第31-35页
·梯度的估计	第32-34页
·基于梯度的优化算法	第34-35页
·策略迭代算法	第35-37页
·基于理论值的策略迭代	第35-36页
·基于样本轨道的策略迭代	第36-37页
·MDPs基于事件的优化	第37-42页
第三章半Markov决策过程与性能灵敏度分析	第42-63页
·Markov更新过程、半Markov过程及其决策过程	第42-46页
·Markov更新过程	第42-44页
·半Markov过程	第44-45页
·半Markov决策过程	第45-46页
·平均准则下的灵敏度分析和优化	第46-51页
·基于离散时间Markov过程的灵敏度分析和优化	第46-49页
·基于连续时间Markov过程的灵敏度分析和优化	第49-51页
·折扣准则下的灵敏度分析和优化	第51-63页
·连续时间Markov过程在折扣准则下的灵敏度分析与优化	第51-56页
·半Markov决策过程在折扣准则下的灵敏度分析和优化	第56-63页
第四章离散时间POMDP与性能灵敏度分析	第63-93页
·POMDP的定义及其应用	第63-65页
·基于观测的策略下的POMDP的灵敏度分析和优化	第65-78页
·基于观测的策略下的POMDP的灵敏度分析	第66-70页
·性能灵敏度公式的直观理解	第70-71页
·POMDP关于基于观测的策略的梯度估计	第71-75页
·基于观测的策略的策略迭代算法	第75-78页
·POMDP基于内部状态的灵敏度分析和优化	第78-93页
·有限状态控制机	第78-81页
·POMDP基于内部状态的灵敏度分析	第81-86页
·策略梯度计算与估计	第86-89页
·策略迭代算法	第89-93页
第五章连续时间POMDP的策略梯度估计	第93-100页
·连续时间部分可观Markov决策过程	第93-94页
·连续时间部分可观Markov决策过程的梯度	第94-97页
·连续时间部分可观Markov决策过程的策略梯度估计	第97-100页
第六章随机切换过程	第100-106页
·随机切换过程的引入	第100-101页
·随机切换的连续时间Markov过程	第101-103页
·随机平稳策略下的连续时间MDPs	第103-105页
·小结	第105-106页
第七章总结与展望	第106-109页
·总结	第106-107页
·展望	第107-109页
参考文献	第109-117页
致谢	第117-118页
攻读博士学位期间的研究成果	第118-119页