| 摘要 | 第1-6页 |
| ABSTRACT | 第6-13页 |
| 第一章 绪论 | 第13-21页 |
| ·基于传送带服务的生产加工站(CSPS) | 第13页 |
| ·强化学习 | 第13-16页 |
| ·强化学习定义 | 第14页 |
| ·强化学习的主要元素和特点 | 第14-15页 |
| ·强化学习算法 | 第15-16页 |
| ·MDP/SMDP以及性能势理论 | 第16-19页 |
| ·MDP/SMDP的概述 | 第16-18页 |
| ·MDP/SMDP和性能势的关系 | 第18-19页 |
| ·论文的组织结构 | 第19-21页 |
| 第二章 CSPS问题 | 第21-27页 |
| ·CSPS模型的概述 | 第21-22页 |
| ·CSPS模型的控制模式说明 | 第22-25页 |
| ·CSPS模型的优化目标 | 第25-27页 |
| 第三章 CSPS的半Markov决策过程模型 | 第27-39页 |
| ·半Markov决策过程的分类和数学模型 | 第27-29页 |
| ·半Markov决策0的分类 | 第27页 |
| ·半Markov决策过程的数学模型 | 第27-29页 |
| ·CSPS建模为半Markov决策过程模型 | 第29-33页 |
| ·基本的符号和概念 | 第29-30页 |
| ·系统和性能函数 | 第30-33页 |
| ·半Markov决策过程的优化 | 第33-36页 |
| ·SMDP的优化目标 | 第33-34页 |
| ·SMDP的优化方法 | 第34页 |
| ·SMDP的Bellman最优性方程 | 第34-36页 |
| ·SMDP与其等价MDP及α-一致化链 | 第36-39页 |
| 第四章 CSPS基于策略迭代和Q学习的look-ahead控制 | 第39-52页 |
| ·策略迭代概述 | 第39-40页 |
| ·CSPS模型基于性能势的策略迭代的优化 | 第40-42页 |
| ·基于性能势的策略迭代算法 | 第40-41页 |
| ·策略迭代与CSPS问题 | 第41-42页 |
| ·性能势与Q学习 | 第42-44页 |
| ·Q学习的原理 | 第42页 |
| ·基于性能势的Q学习 | 第42-44页 |
| ·CSPS模型基于性能势的Q学习优化 | 第44-45页 |
| ·Q函数的最优性方程 | 第44-45页 |
| ·基于性能势的Q学习优化算法 | 第45页 |
| ·实验结果 | 第45-52页 |
| 第五章 CSPS基于Rollout的look-ahead控制 | 第52-60页 |
| ·基于性能势的Rollout算法 | 第52-53页 |
| ·CSPS模型基于性能势的Rollout优化 | 第53-56页 |
| ·基于性能势的Rollout优化算法 | 第53-54页 |
| ·摄动分析方法在Rollout优化算法的使用 | 第54页 |
| ·基于历史信息和摄动技术的Rollout算法 | 第54-56页 |
| ·实验结果 | 第56-60页 |
| 第六章 总结 | 第60-61页 |
| 参考文献 | 第61-65页 |
| 硕士学位期间主要科研工作和成果 | 第65页 |