| 摘要 | 第1-5页 |
| Abstract | 第5-11页 |
| 第一章 绪论 | 第11-23页 |
| ·性能优化问题的研究方法 | 第11-12页 |
| ·基于灵敏度观点的优化 | 第12-14页 |
| ·半Markov决策过程的研究现状 | 第14页 |
| ·部分可观Markov决策过程的研究现状 | 第14-19页 |
| ·本文的研究目的 | 第19-20页 |
| ·本文的内容 | 第20-21页 |
| ·本文的主要贡献 | 第21-23页 |
| 第二章 Markov决策过程基于灵敏度的性能优化 | 第23-42页 |
| ·Markov决策过程(MDPs) | 第23-28页 |
| ·离散时间和连续时间MDPs | 第23-24页 |
| ·决策时刻、历史与策略 | 第24-25页 |
| ·转移概率矩阵、无穷小矩阵和优化准则 | 第25-27页 |
| ·MDPs的研究现状 | 第27-28页 |
| ·Markov过程的灵敏度分析 | 第28-31页 |
| ·实现因子和性能势 | 第28-29页 |
| ·性能势的估计 | 第29-30页 |
| ·性能差与性能导数公式 | 第30-31页 |
| ·MDPs的最优性方程 | 第31页 |
| ·性能梯度与基于梯度的优化 | 第31-35页 |
| ·梯度的估计 | 第32-34页 |
| ·基于梯度的优化算法 | 第34-35页 |
| ·策略迭代算法 | 第35-37页 |
| ·基于理论值的策略迭代 | 第35-36页 |
| ·基于样本轨道的策略迭代 | 第36-37页 |
| ·MDPs基于事件的优化 | 第37-42页 |
| 第三章 半Markov决策过程与性能灵敏度分析 | 第42-63页 |
| ·Markov更新过程、半Markov过程及其决策过程 | 第42-46页 |
| ·Markov更新过程 | 第42-44页 |
| ·半Markov过程 | 第44-45页 |
| ·半Markov决策过程 | 第45-46页 |
| ·平均准则下的灵敏度分析和优化 | 第46-51页 |
| ·基于离散时间Markov过程的灵敏度分析和优化 | 第46-49页 |
| ·基于连续时间Markov过程的灵敏度分析和优化 | 第49-51页 |
| ·折扣准则下的灵敏度分析和优化 | 第51-63页 |
| ·连续时间Markov过程在折扣准则下的灵敏度分析与优化 | 第51-56页 |
| ·半Markov决策过程在折扣准则下的灵敏度分析和优化 | 第56-63页 |
| 第四章 离散时间POMDP与性能灵敏度分析 | 第63-93页 |
| ·POMDP的定义及其应用 | 第63-65页 |
| ·基于观测的策略下的POMDP的灵敏度分析和优化 | 第65-78页 |
| ·基于观测的策略下的POMDP的灵敏度分析 | 第66-70页 |
| ·性能灵敏度公式的直观理解 | 第70-71页 |
| ·POMDP关于基于观测的策略的梯度估计 | 第71-75页 |
| ·基于观测的策略的策略迭代算法 | 第75-78页 |
| ·POMDP基于内部状态的灵敏度分析和优化 | 第78-93页 |
| ·有限状态控制机 | 第78-81页 |
| ·POMDP基于内部状态的灵敏度分析 | 第81-86页 |
| ·策略梯度计算与估计 | 第86-89页 |
| ·策略迭代算法 | 第89-93页 |
| 第五章 连续时间POMDP的策略梯度估计 | 第93-100页 |
| ·连续时间部分可观Markov决策过程 | 第93-94页 |
| ·连续时间部分可观Markov决策过程的梯度 | 第94-97页 |
| ·连续时间部分可观Markov决策过程的策略梯度估计 | 第97-100页 |
| 第六章 随机切换过程 | 第100-106页 |
| ·随机切换过程的引入 | 第100-101页 |
| ·随机切换的连续时间Markov过程 | 第101-103页 |
| ·随机平稳策略下的连续时间MDPs | 第103-105页 |
| ·小结 | 第105-106页 |
| 第七章 总结与展望 | 第106-109页 |
| ·总结 | 第106-107页 |
| ·展望 | 第107-109页 |
| 参考文献 | 第109-117页 |
| 致谢 | 第117-118页 |
| 攻读博士学位期间的研究成果 | 第118-119页 |