摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第1章 绪论 | 第17-25页 |
1.1 引言 | 第17-20页 |
1.2 强化学习样本效率研究现状与存在的问题 | 第20-22页 |
1.3 本文的主要工作 | 第22-23页 |
1.4 本文的组织结构 | 第23-24页 |
1.5 本章小结 | 第24-25页 |
第2章 背景知识介绍 | 第25-41页 |
2.1 强化学习问题定义 | 第25-27页 |
2.2 强化学习基本算法 | 第27-29页 |
2.3 强化学习的探索策略 | 第29-33页 |
2.3.1 随机探索策略 | 第30-31页 |
2.3.2 系统性探索策略 | 第31-33页 |
2.4 强化学习样本效率的理论研究 | 第33-38页 |
2.4.1 早期的算法收敛性研究 | 第34-35页 |
2.4.2 强化学习PAC-MDP理论 | 第35-37页 |
2.4.3 其他相关理论工作 | 第37-38页 |
2.5 已有样本效率理论的主要缺陷 | 第38-40页 |
2.6 本章小结 | 第40-41页 |
第3章 停更样本复杂度与谨慎度逐增的乐观原则 | 第41-67页 |
3.1 研究背景 | 第42-43页 |
3.2 PAC-MDP理论与R-MAX、V-MAX算法 | 第43-46页 |
3.3 停更样本复杂度 | 第46-49页 |
3.4 谨慎度逐增的乐观原则(ICO原则) | 第49-56页 |
3.4.1 谨慎度逐增R-MAX算法(ICR) | 第50-52页 |
3.4.2 ICR算法样本效率理论分析 | 第52-54页 |
3.4.3 ICR算法参数设置 | 第54-55页 |
3.4.4 谨慎度逐增V-MAX算法(ICV) | 第55-56页 |
3.5 实验研究 | 第56-65页 |
3.5.1 测试问题 | 第56-58页 |
3.5.2 性能指标 | 第58-60页 |
3.5.3 探索策略性能测试 | 第60-63页 |
3.5.4 关于停更概率的实验 | 第63-65页 |
3.6 本章小结 | 第65-67页 |
第4章 强化学习成功概率理论分析 | 第67-95页 |
4.1 研究背景 | 第68-70页 |
4.2 强化学习成功概率分析框架 | 第70-74页 |
4.2.1 成功概率定义与基本数学性质 | 第70-71页 |
4.2.2 成功概率与各因素间的依赖关系及基本分析流程 | 第71-72页 |
4.2.3 成功概率分析的应用方法 | 第72-73页 |
4.2.4 成功概率分析与PAC-MDP分析的比较 | 第73-74页 |
4.3 链式MDP的成功概率分析 | 第74-87页 |
4.3.1 链式MDP | 第74-76页 |
4.3.2 支配策略及价值函数〈V~л〉 | 第76-79页 |
4.3.3 原型算法,访问次数〈N(s,a)〉及〈N_(s,a,s')〉,以及遍历事件E_trav~л | 第79-82页 |
4.3.4 由估计价值〈V~л〉到л-成功事件 | 第82-84页 |
4.3.5 成功概率P~л、P~*的计算 | 第84-87页 |
4.4 实验研究 | 第87-93页 |
4.4.1 链式MDP上的实验 | 第87-90页 |
4.4.2 在迷宫MDP上的应用 | 第90-93页 |
4.5 本章小结 | 第93-95页 |
第5章 强化学习价值估计的偏态 | 第95-114页 |
5.1 研究背景 | 第95-97页 |
5.2 偏态与对数正态分布 | 第97-98页 |
5.3 一般MDP下状态价值估计的对数正态性 | 第98-104页 |
5.3.1 分解至归一化单回报Markov链 | 第99页 |
5.3.2 进一步分解至路径状态价值 | 第99-101页 |
5.3.3 路径状态价值的对数正态性 | 第101-104页 |
5.3.4 状态价值估计的对数正态性 | 第104页 |
5.4 估计价值偏态对学习的不利影响及应对措施 | 第104-108页 |
5.4.1 状态价值估计的偏态方向 | 第104-106页 |
5.4.2 状态价值估计的偏态尺度 | 第106-108页 |
5.4.3 应对措施汇总 | 第108页 |
5.5 实验研究 | 第108-112页 |
5.5.1 链式MDP上的实验 | 第108-111页 |
5.5.2 迷宫MDP上的实验 | 第111-112页 |
5.6 本章小结 | 第112-114页 |
第6章 总结与展望 | 第114-118页 |
6.1 工作总结 | 第114-116页 |
6.2 未来展望 | 第116-118页 |
参考文献 | 第118-127页 |
致谢 | 第127-128页 |
在读期间发表的学术论文与取得的研究成果 | 第128页 |