| 中文摘要 | 第1-5页 |
| Abstract | 第5-10页 |
| 第一章 引言 | 第10-16页 |
| ·研究背景及意义 | 第10-11页 |
| ·国内外研究现状 | 第11-13页 |
| ·主要创新工作 | 第13-14页 |
| ·论文组织结构 | 第14-16页 |
| 第二章 强化学习理论与算法 | 第16-30页 |
| ·强化学习简介 | 第16页 |
| ·强化学习原理 | 第16-19页 |
| ·强化学习模型和马尔决策过程 | 第16-18页 |
| ·强化学习的四要素 | 第18-19页 |
| ·模型与学习、规划 | 第19-21页 |
| ·完全更新与抽样更新 | 第21-25页 |
| ·规划和学习的主要算法 | 第25-29页 |
| ·策略迭代与值迭代算法 | 第25-26页 |
| ·TD 算法 | 第26-28页 |
| ·Q-Learning 算法 | 第28页 |
| ·Sarsa 学习算法 | 第28-29页 |
| ·本章小结 | 第29-30页 |
| 第三章 基于拓扑序列更新的值迭代算法 | 第30-46页 |
| ·值迭代和效率分析 | 第30-32页 |
| ·VI-TS 算法及收敛性分析 | 第32-38页 |
| ·VI-TS 算法的原理及流程 | 第32-36页 |
| ·VI-TS 算法收敛性分析 | 第36-37页 |
| ·VI-TS 算法的实现 | 第37-38页 |
| ·实验及结果分析 | 第38-45页 |
| ·实验描述 | 第38-41页 |
| ·实验设置及结果分析 | 第41-45页 |
| ·本章小结 | 第45-46页 |
| 第四章 基于优先级扫描的 Dyna 结构优化算法 | 第46-62页 |
| ·Dyna 结构算法和优先级扫描算法 | 第46-50页 |
| ·Dyna 结构算法的框架 | 第46-49页 |
| ·优先级扫描算法 | 第49-50页 |
| ·Dyna-PS 算法及收敛性分析 | 第50-56页 |
| ·Dyna-PS 算法原理 | 第51-52页 |
| ·Dyna-PS 算法的收敛性 | 第52-56页 |
| ·实验及结果分析 | 第56-60页 |
| ·实验描述 | 第56页 |
| ·实验设置及结果分析 | 第56-60页 |
| ·本章小结 | 第60-62页 |
| 第五章 总结与展望 | 第62-64页 |
| ·工作总结 | 第62-63页 |
| ·工作展望 | 第63-64页 |
| 参考文献 | 第64-68页 |
| 攻读硕士学位期间发表(录用)的论文及参与的科研项目 | 第68-70页 |
| 一、发表(录用)的论文 | 第68页 |
| 二、科研成果 | 第68页 |
| 三、参加的科研项目 | 第68-70页 |
| 致谢 | 第70-71页 |