| 致谢 | 第1-5页 |
| 摘要 | 第5-7页 |
| Abstract | 第7-10页 |
| Extended Abstract | 第10-13页 |
| 目录 | 第13-17页 |
| 图清单 | 第17-20页 |
| 表清单 | 第20-21页 |
| 变量注释表 | 第21-22页 |
| 1 绪论 | 第22-40页 |
| ·研究背景 | 第22-23页 |
| ·课题来源 | 第23页 |
| ·国内外研究现状 | 第23-36页 |
| ·论文研究思路、方法及内容 | 第36-38页 |
| ·论文的结构和内容 | 第38-40页 |
| 2 强化学习和谱图理论 | 第40-53页 |
| ·强化学习理论 | 第40-45页 |
| ·谱图理论及其应用 | 第45-48页 |
| ·流形学习和距离度量学习 | 第48-50页 |
| ·基于拉普拉斯特征映射的强化学习 | 第50-52页 |
| ·小结 | 第52-53页 |
| 3 基于谱图理论的 Option 自动生成 | 第53-76页 |
| ·基于谱图理论的 Option 方法 | 第54-57页 |
| ·基于谱图分割的 Option 自动生成算法 | 第57-58页 |
| ·基于多路谱图分割的 Option 自动生成算法 | 第58-66页 |
| ·仿真实验与分析 | 第66-75页 |
| ·小结 | 第75-76页 |
| 4 基于谱图理论的启发式回报函数设计 | 第76-97页 |
| ·基于距离度量学习的启发式强化学习 | 第77-78页 |
| ·启发式回报函数设计概述 | 第78-80页 |
| ·基于拉普拉斯特征映射的距离度量法 | 第80-84页 |
| ·基于多路谱图分割的抽象模型法 | 第84-87页 |
| ·两类方法的对比分析 | 第87-90页 |
| ·仿真实验与分析 | 第90-96页 |
| ·小结 | 第96-97页 |
| 5 基于谱图理论的启发式策略选择和 Dyna 规划 | 第97-109页 |
| ·探索和利用平衡问题 | 第97-98页 |
| ·基于谱图理论的启发式策略选择 | 第98-103页 |
| ·Dyna 学习框架 | 第103-104页 |
| ·基于谱图理论的 Dyna_Q 算法 | 第104-107页 |
| ·小结 | 第107-109页 |
| 6 基于谱图理论的强化学习迁移 | 第109-123页 |
| ·强化学习迁移概述 | 第110-111页 |
| ·基于谱图理论的强化学习迁移 | 第111-112页 |
| ·基于谱图理论的强化学习混合迁移方法 | 第112-116页 |
| ·算法步骤和适用范围 | 第116-117页 |
| ·仿真实验与分析 | 第117-122页 |
| ·小结 | 第122-123页 |
| 7 总结与展望 | 第123-125页 |
| ·总结 | 第123-124页 |
| ·展望 | 第124-125页 |
| 参考文献 | 第125-140页 |
| 附录 1:线性插值所得基函数的线性无关性证明 | 第140-141页 |
| 作者简历 | 第141-144页 |
| 学位论文数据集 | 第144页 |