强化学习迁移中的源任务选择研究
摘要 | 第4-6页 |
Abstract | 第6-7页 |
第一章 绪论 | 第13-31页 |
1.1 研究背景 | 第13-16页 |
1.2 国内外研究现状 | 第16-27页 |
1.2.1 单源强化学习迁移场景 | 第17-20页 |
1.2.2 多源强化学习迁移场景 | 第20-24页 |
1.2.3 新的强化学习迁移场景 | 第24-27页 |
1.3 研究内容、方法和思路 | 第27-31页 |
1.3.1 现有研究的不足 | 第27-28页 |
1.3.2 本文的研究方法和具体内容 | 第28-31页 |
第二章 强化学习迁移的背景知识 | 第31-47页 |
2.1 强化学习 | 第31-41页 |
2.1.1 模型和基本概念 | 第31-35页 |
2.1.2 动态规划方法 | 第35-36页 |
2.1.3 蒙特卡洛方法 | 第36-38页 |
2.1.4 时间差分学习 | 第38-39页 |
2.1.5 资格跟踪 | 第39-41页 |
2.2 强化学习迁移 | 第41-47页 |
2.2.1 强化学习迁移的框架 | 第41-42页 |
2.2.2 强化学习迁移的方法 | 第42-44页 |
2.2.3 强化学习迁移的评价指标 | 第44-47页 |
第三章 有限MDP间的距离度量 | 第47-69页 |
3.1 引言 | 第47-48页 |
3.2 背景知识 | 第48-49页 |
3.3 衡量两个MDP间距离的度量 | 第49-56页 |
3.3.1 衡量不同MDP中状态间的距离 | 第49-53页 |
3.3.2 基于豪斯多夫度量的方法 | 第53页 |
3.3.3 基于康托洛维奇度量的方法 | 第53-56页 |
3.4 知识迁移方法 | 第56-59页 |
3.4.1 带权重的迁移 | 第56-58页 |
3.4.2 状态直接迁移 | 第58-59页 |
3.5 实验 | 第59-66页 |
3.6 本章小结 | 第66-69页 |
第四章 视频强化学习任务的特征学习与迁移性能预测 | 第69-85页 |
4.1 引言 | 第69-70页 |
4.2 背景知识和相关工作 | 第70-72页 |
4.2.1 强化学习任务 | 第70-71页 |
4.2.2 迁移学习场景 | 第71页 |
4.2.3 相关工作 | 第71-72页 |
4.3 预测迁移性能 | 第72-75页 |
4.3.1 问题形式化和训练数据 | 第73页 |
4.3.2 通过深度神经网络预测迁移性能 | 第73-75页 |
4.4 实验 | 第75-82页 |
4.4.1 迷宫领域 | 第76-79页 |
4.4.2 吃豆人领域 | 第79-82页 |
4.5 本章小结 | 第82-85页 |
第五章 面向对象强化学习任务的自动任务序列构造 | 第85-105页 |
5.1 引言 | 第85-87页 |
5.2 背景知识和相关工作 | 第87-91页 |
5.2.1 强化学习 | 第87页 |
5.2.2 面向对象的表示方法 | 第87-88页 |
5.2.3 强化学习中的课程学习 | 第88-89页 |
5.2.4 相关工作 | 第89-91页 |
5.3 源任务创建 | 第91-94页 |
5.3.1 移动初始状态 | 第91-92页 |
5.3.2 改变对象集合 | 第92-93页 |
5.3.3 缩减环境空间 | 第93-94页 |
5.4 任务相似度和迁移潜能 | 第94-96页 |
5.4.1 只使用移动初始状态算子 | 第95-96页 |
5.4.2 只使用改变对象集合算子 | 第96页 |
5.4.3 其他情况 | 第96页 |
5.5 迁移任务序列构建 | 第96-99页 |
5.5.1 确定任务迁移顺序 | 第97-98页 |
5.5.2 构建课程 | 第98-99页 |
5.6 实验 | 第99-103页 |
5.6.1 实验设置 | 第99-100页 |
5.6.2 实验结果 | 第100-103页 |
5.7 本章小结 | 第103-105页 |
第六章 总结与展望 | 第105-109页 |
6.1 总结 | 第105-107页 |
6.2 展望 | 第107-109页 |
参考文献 | 第109-129页 |
简历与科研成果 | 第129-131页 |
致谢 | 第131-133页 |