SMDP基于性能势的异步优化算法

第一章绪论	第1-21页
·离散事件动态系统	第13-15页
·Markov决策过程	第15-17页
·Markov决策过程概述	第15-16页
·Markov决策过程和性能势	第16-17页
·半Markov决策过程和性能势	第17-19页
·论文组织结构	第19-21页
第二章半Markov决策过程	第21-29页
·半Markov决策过程的分类和数学模型	第21-23页
·半Markov决策过程的分类	第21-22页
·半Markov决策过程的数学模型	第22-23页
·半Markov决策过程和α-一致化Markov链	第23-26页
·等价Markov决策过程	第23-25页
·SMDP的α-一致化Markov链	第25-26页
·半Markov决策过程的优化	第26-29页
·半Markov决策过程的优化目标	第26-27页
·半Markov决策过程的最优性方程	第27-29页
第三章 SMDP基于性能势的异步数值迭代算法	第29-41页
·SMDP基于A_α~ν的标准数值迭代	第29-35页
·SMDP基于A_α~ν的标准数值迭代算法	第30-31页
·收敛性证明	第31-35页
·异步数值迭代算法	第35-36页
·Gauss-Seidel(G-S)迭代	第35页
·基于样本轨道的异步数值迭代	第35-36页
·改进的数值迭代	第36-37页
·数值例子	第37-41页
第四章 SMDP基于性能势的异步策略迭代算法	第41-54页
·TD学习和NDP优化	第41-44页
·TD学习	第41-42页
·神经元动态规划	第42-44页
·基于性能势的M步向前策略迭代	第44-48页
·M步向前异步策略迭代	第44-46页
·基于TD学习的M步向前策略迭代	第46-47页
·基于NDP的M步向前异步策略迭代	第47-48页
·数值例子	第48-54页
第五章优化仿真平台	第54-62页
·仿真平台的简介	第54-55页
·优化算法仿真平台	第55-59页
·总结与展望	第59-62页
第六章总结	第62-63页
参考文献	第63-68页
攻读硕士学位期间主要科研工作和成果	第68页