摘要 | 第1-5页 |
Abstract | 第5-11页 |
第一章 绪论 | 第11-23页 |
·性能优化问题的研究方法 | 第11-12页 |
·基于灵敏度观点的优化 | 第12-14页 |
·半Markov决策过程的研究现状 | 第14页 |
·部分可观Markov决策过程的研究现状 | 第14-19页 |
·本文的研究目的 | 第19-20页 |
·本文的内容 | 第20-21页 |
·本文的主要贡献 | 第21-23页 |
第二章 Markov决策过程基于灵敏度的性能优化 | 第23-42页 |
·Markov决策过程(MDPs) | 第23-28页 |
·离散时间和连续时间MDPs | 第23-24页 |
·决策时刻、历史与策略 | 第24-25页 |
·转移概率矩阵、无穷小矩阵和优化准则 | 第25-27页 |
·MDPs的研究现状 | 第27-28页 |
·Markov过程的灵敏度分析 | 第28-31页 |
·实现因子和性能势 | 第28-29页 |
·性能势的估计 | 第29-30页 |
·性能差与性能导数公式 | 第30-31页 |
·MDPs的最优性方程 | 第31页 |
·性能梯度与基于梯度的优化 | 第31-35页 |
·梯度的估计 | 第32-34页 |
·基于梯度的优化算法 | 第34-35页 |
·策略迭代算法 | 第35-37页 |
·基于理论值的策略迭代 | 第35-36页 |
·基于样本轨道的策略迭代 | 第36-37页 |
·MDPs基于事件的优化 | 第37-42页 |
第三章 半Markov决策过程与性能灵敏度分析 | 第42-63页 |
·Markov更新过程、半Markov过程及其决策过程 | 第42-46页 |
·Markov更新过程 | 第42-44页 |
·半Markov过程 | 第44-45页 |
·半Markov决策过程 | 第45-46页 |
·平均准则下的灵敏度分析和优化 | 第46-51页 |
·基于离散时间Markov过程的灵敏度分析和优化 | 第46-49页 |
·基于连续时间Markov过程的灵敏度分析和优化 | 第49-51页 |
·折扣准则下的灵敏度分析和优化 | 第51-63页 |
·连续时间Markov过程在折扣准则下的灵敏度分析与优化 | 第51-56页 |
·半Markov决策过程在折扣准则下的灵敏度分析和优化 | 第56-63页 |
第四章 离散时间POMDP与性能灵敏度分析 | 第63-93页 |
·POMDP的定义及其应用 | 第63-65页 |
·基于观测的策略下的POMDP的灵敏度分析和优化 | 第65-78页 |
·基于观测的策略下的POMDP的灵敏度分析 | 第66-70页 |
·性能灵敏度公式的直观理解 | 第70-71页 |
·POMDP关于基于观测的策略的梯度估计 | 第71-75页 |
·基于观测的策略的策略迭代算法 | 第75-78页 |
·POMDP基于内部状态的灵敏度分析和优化 | 第78-93页 |
·有限状态控制机 | 第78-81页 |
·POMDP基于内部状态的灵敏度分析 | 第81-86页 |
·策略梯度计算与估计 | 第86-89页 |
·策略迭代算法 | 第89-93页 |
第五章 连续时间POMDP的策略梯度估计 | 第93-100页 |
·连续时间部分可观Markov决策过程 | 第93-94页 |
·连续时间部分可观Markov决策过程的梯度 | 第94-97页 |
·连续时间部分可观Markov决策过程的策略梯度估计 | 第97-100页 |
第六章 随机切换过程 | 第100-106页 |
·随机切换过程的引入 | 第100-101页 |
·随机切换的连续时间Markov过程 | 第101-103页 |
·随机平稳策略下的连续时间MDPs | 第103-105页 |
·小结 | 第105-106页 |
第七章 总结与展望 | 第106-109页 |
·总结 | 第106-107页 |
·展望 | 第107-109页 |
参考文献 | 第109-117页 |
致谢 | 第117-118页 |
攻读博士学位期间的研究成果 | 第118-119页 |