大规模Markov决策过程基于性能势的并行算法研究与应用

摘要	第1-7页
ABSTRACT	第7-9页
致谢	第9-14页
第一章绪论	第14-23页
·DEDS、MDP与性能势理论	第14-16页
·并行计算概括	第16-20页
·并行计算机分类	第16-18页
·并行编程语言和环境	第18-19页
·并行算法设计过程	第19-20页
·并行算法的性能评价	第20页
·MDP串行和并行算法的研究现状	第20-21页
·论文的主要工作	第21-23页
第二章 MDP优化基本理论	第23-30页
·MDP数学模型	第23-24页
·MDP优化方法	第24-30页
·基于理论计算的优化方法	第25-26页
·基于强化学习的仿真优化方法	第26-28页
·基于NDP的仿真优化算法	第28-30页
第三章并行数值迭代算法	第30-40页
·引言	第30页
·并行数值迭代算法的基本框架	第30-31页
·划分策略	第31-33页
·模型建立	第31-32页
·启发式划分策略	第32-33页
·性能分析	第33页
·数值例子	第33-39页
·本章小结	第39-40页
第四章并行仿真优化方法	第40-59页
·并行Q学习算法	第40-50页
·Q学习算法	第41页
·基于并行思想的Q学习算法改进	第41-44页
·算法中主要参数设计	第44-45页
·同步策略	第44-45页
·Q值构建策略	第45页
·数值例子	第45-50页
·并行NDP优化算法	第50-58页
·Critic模式下NDP优化方法	第50-52页
·性能势TD学习算法	第50-51页
·NDP优化算法	第51-52页
·基于神经网络集成的NDP并行优化	第52-54页
·神经网络集成	第52页
·NDP并行优化方法	第52-54页
·数值例子	第54-58页
·本章小结	第58-59页
第五章在线Rollout仿真算法及并行实现	第59-70页
·引言	第59页
·Rollout及其并行求解算法	第59-61页
·Rollout算法在多类商品库存控制中的应用	第61-66页
·基本假设	第61页
·数学符号	第61-62页
·多类商品库存控制的MDP数学模型	第62-63页
·数值例子	第63-66页
·Rollout算法在多级仓库库存控制中的应用	第66-69页
·多agent学习研究概况	第66-67页
·多agent MDP数学模型	第67页
·多agent Rollout学习算法	第67-68页
·多级仓库最优库存控制实例	第68-69页
·本章小结	第69-70页
第六章总结与展望	第70-72页
·总结	第70-71页
·展望	第71-72页
参考文献	第72-77页
攻读硕士学位期间主要科研工作和成果	第77页