| 中文摘要 | 第1-5页 |
| Abstract | 第5-9页 |
| 第一章 引言 | 第9-16页 |
| ·研究背景及意义 | 第9-12页 |
| ·国内外研究现状 | 第12-14页 |
| ·主要工作 | 第14-15页 |
| ·论文组织结构 | 第15-16页 |
| 第二章 强化学习理论及算法 | 第16-27页 |
| ·强化学习简介 | 第16-17页 |
| ·强化学习的基本原理 | 第17页 |
| ·强化学习系统的关键要素 | 第17-20页 |
| ·强化学习问题的建模 | 第20-21页 |
| ·强化学习算法 | 第21-25页 |
| ·强化学习算法的分类 | 第21-22页 |
| ·强化学习算法效率的度量指标 | 第22-23页 |
| ·几种常用的强化学习算法 | 第23-25页 |
| ·并行强化学习 | 第25-26页 |
| ·本章小结 | 第26-27页 |
| 第三章 基于状态空间分解和智能调度的并行强化学习 | 第27-49页 |
| ·IS-SRL和IS-SPRL方法 | 第27-37页 |
| ·子问题的学习过程 | 第27-30页 |
| ·IS-SPRL方法的消息传递和调度 | 第30-32页 |
| ·学习步骤 | 第32-33页 |
| ·加权优先级调度算法 | 第33-37页 |
| ·收敛性分析 | 第37-41页 |
| ·模型和假设 | 第38-39页 |
| ·基于IS-SRL和IS-SPRL方法的Q学习算法的收敛性 | 第39-41页 |
| ·实验 | 第41-47页 |
| ·实验3.1:不同调度算法的比较 | 第42-43页 |
| ·实验3.2:算法在不同参数下的性能比较 | 第43-44页 |
| ·实验3.3:不同算法的收敛速度的比较 | 第44-46页 |
| ·结果分析 | 第46-47页 |
| ·本章小结 | 第47-49页 |
| 第四章 基于资格迹的并行时间信度分配强化学习算法 | 第49-59页 |
| ·资格迹与强化学习 | 第50-52页 |
| ·并行时间信度分配 | 第52-54页 |
| ·性能优化与系统容错 | 第54-55页 |
| ·状态迁移预测 | 第54-55页 |
| ·故障预防和恢复 | 第55页 |
| ·实验 | 第55-58页 |
| ·本章小结 | 第58-59页 |
| 第五章 基于并行采样和学习经验复用的E.算法 | 第59-71页 |
| ·E~3算法 | 第60-62页 |
| ·学习经验复用 | 第62-63页 |
| ·并行E~3算法 | 第63-66页 |
| ·系统容错 | 第66页 |
| ·实验 | 第66-70页 |
| ·本章小结 | 第70-71页 |
| 第六章 总结与展望 | 第71-73页 |
| ·工作总结 | 第71-72页 |
| ·工作展望 | 第72-73页 |
| 参考文献 | 第73-78页 |
| 攻读硕士期间发表(录用)的论文和参与的科研项目 | 第78-80页 |
| 致谢 | 第80页 |