CSPS模型基于学习的Look-ahead控制研究

摘要	第1-6页
ABSTRACT	第6-13页
第一章绪论	第13-21页
·基于传送带服务的生产加工站(CSPS)	第13页
·强化学习	第13-16页
·强化学习定义	第14页
·强化学习的主要元素和特点	第14-15页
·强化学习算法	第15-16页
·MDP/SMDP以及性能势理论	第16-19页
·MDP/SMDP的概述	第16-18页
·MDP/SMDP和性能势的关系	第18-19页
·论文的组织结构	第19-21页
第二章 CSPS问题	第21-27页
·CSPS模型的概述	第21-22页
·CSPS模型的控制模式说明	第22-25页
·CSPS模型的优化目标	第25-27页
第三章 CSPS的半Markov决策过程模型	第27-39页
·半Markov决策过程的分类和数学模型	第27-29页
·半Markov决策0的分类	第27页
·半Markov决策过程的数学模型	第27-29页
·CSPS建模为半Markov决策过程模型	第29-33页
·基本的符号和概念	第29-30页
·系统和性能函数	第30-33页
·半Markov决策过程的优化	第33-36页
·SMDP的优化目标	第33-34页
·SMDP的优化方法	第34页
·SMDP的Bellman最优性方程	第34-36页
·SMDP与其等价MDP及α-一致化链	第36-39页
第四章 CSPS基于策略迭代和Q学习的look-ahead控制	第39-52页
·策略迭代概述	第39-40页
·CSPS模型基于性能势的策略迭代的优化	第40-42页
·基于性能势的策略迭代算法	第40-41页
·策略迭代与CSPS问题	第41-42页
·性能势与Q学习	第42-44页
·Q学习的原理	第42页
·基于性能势的Q学习	第42-44页
·CSPS模型基于性能势的Q学习优化	第44-45页
·Q函数的最优性方程	第44-45页
·基于性能势的Q学习优化算法	第45页
·实验结果	第45-52页
第五章 CSPS基于Rollout的look-ahead控制	第52-60页
·基于性能势的Rollout算法	第52-53页
·CSPS模型基于性能势的Rollout优化	第53-56页
·基于性能势的Rollout优化算法	第53-54页
·摄动分析方法在Rollout优化算法的使用	第54页
·基于历史信息和摄动技术的Rollout算法	第54-56页
·实验结果	第56-60页
第六章总结	第60-61页
参考文献	第61-65页
硕士学位期间主要科研工作和成果	第65页