致谢 | 第1-5页 |
摘要 | 第5-7页 |
Abstract | 第7-10页 |
Extended Abstract | 第10-13页 |
目录 | 第13-17页 |
图清单 | 第17-20页 |
表清单 | 第20-21页 |
变量注释表 | 第21-22页 |
1 绪论 | 第22-40页 |
·研究背景 | 第22-23页 |
·课题来源 | 第23页 |
·国内外研究现状 | 第23-36页 |
·论文研究思路、方法及内容 | 第36-38页 |
·论文的结构和内容 | 第38-40页 |
2 强化学习和谱图理论 | 第40-53页 |
·强化学习理论 | 第40-45页 |
·谱图理论及其应用 | 第45-48页 |
·流形学习和距离度量学习 | 第48-50页 |
·基于拉普拉斯特征映射的强化学习 | 第50-52页 |
·小结 | 第52-53页 |
3 基于谱图理论的 Option 自动生成 | 第53-76页 |
·基于谱图理论的 Option 方法 | 第54-57页 |
·基于谱图分割的 Option 自动生成算法 | 第57-58页 |
·基于多路谱图分割的 Option 自动生成算法 | 第58-66页 |
·仿真实验与分析 | 第66-75页 |
·小结 | 第75-76页 |
4 基于谱图理论的启发式回报函数设计 | 第76-97页 |
·基于距离度量学习的启发式强化学习 | 第77-78页 |
·启发式回报函数设计概述 | 第78-80页 |
·基于拉普拉斯特征映射的距离度量法 | 第80-84页 |
·基于多路谱图分割的抽象模型法 | 第84-87页 |
·两类方法的对比分析 | 第87-90页 |
·仿真实验与分析 | 第90-96页 |
·小结 | 第96-97页 |
5 基于谱图理论的启发式策略选择和 Dyna 规划 | 第97-109页 |
·探索和利用平衡问题 | 第97-98页 |
·基于谱图理论的启发式策略选择 | 第98-103页 |
·Dyna 学习框架 | 第103-104页 |
·基于谱图理论的 Dyna_Q 算法 | 第104-107页 |
·小结 | 第107-109页 |
6 基于谱图理论的强化学习迁移 | 第109-123页 |
·强化学习迁移概述 | 第110-111页 |
·基于谱图理论的强化学习迁移 | 第111-112页 |
·基于谱图理论的强化学习混合迁移方法 | 第112-116页 |
·算法步骤和适用范围 | 第116-117页 |
·仿真实验与分析 | 第117-122页 |
·小结 | 第122-123页 |
7 总结与展望 | 第123-125页 |
·总结 | 第123-124页 |
·展望 | 第124-125页 |
参考文献 | 第125-140页 |
附录 1:线性插值所得基函数的线性无关性证明 | 第140-141页 |
作者简历 | 第141-144页 |
学位论文数据集 | 第144页 |