基于平均型强化学习算法的动态调度方法的研究

摘要	第1-4页
ABSTRACT	第4-8页
第一章绪论	第8-15页
·动态调度方法研究现状	第8-13页
·基于运筹学的动态调度方法	第8-9页
·基于人工智能的动态调度方法	第9-12页
·基于强化学习的方法	第12-13页
·论文研究的主要内容	第13-14页
·论文结构安排	第14-15页
第二章强化学习方法的研究	第15-29页
·强化学习的基本原理和发展	第15-19页
·强化学习框架整体结构	第15-16页
·强化学习系统中的基本元素	第16-17页
·强化学习与其他学习方法的比较	第17-18页
·强化学习理论的发展	第18-19页
·强化学习的理论背景和有关算法	第19-28页
·MDP 基础理论	第19-20页
·折扣型 MDP 及其动态规划解法	第20-22页
·折扣型 MDP 的强化学习方法	第22-24页
·平均型 MDP 及其动态规划解法	第24-25页
·平均型 MDP 的强化学习方法	第25-26页
·应用强化学习算法的注意事项	第26-28页
·小结	第28-29页
第三章强化学习算法环境 Grid-World 的建立及典型算法比较	第29-47页
·强化学习算法分析环境 Grid-World 的建立	第29-37页
·Grid-World 环境介绍	第29-30页
·可视化 Grid-World 仿真环境的建立	第30-37页
·典型算法及参数分析比较	第37-46页
·强化学习算法流程	第37-39页
·仿真结果分析	第39-46页
·小结	第46-47页
第四章基于平均型强化学习算法的电梯动态调度	第47-61页
·电梯群组调度	第47-50页
·电梯群组调度系统基本概念	第47-48页
·电梯群组调度方法	第48-50页
·基于平均型强化学习算法的电梯群组调度	第50-56页
·建立强化学习算法模型	第50-52页
·强化学习调度算法	第52-55页
·算法流程	第55-56页
·算法仿真环境	第56-57页
·仿真实验与结果分析	第57-60页
·仿真参数设定	第57-58页
·仿真结果与分析	第58-60页
·小结	第60-61页
第五章总结与展望	第61-63页
·论文的总结	第61-62页
·进一步的工作	第62-63页
参考文献	第63-68页
发表论文和参加科研情况说明	第68-69页
致谢	第69页