强化学习样本效率理论研究

摘要	第5-7页
ABSTRACT	第7-8页
第1章绪论	第17-25页
1.1 引言	第17-20页
1.2 强化学习样本效率研究现状与存在的问题	第20-22页
1.3 本文的主要工作	第22-23页
1.4 本文的组织结构	第23-24页
1.5 本章小结	第24-25页
第2章背景知识介绍	第25-41页
2.1 强化学习问题定义	第25-27页
2.2 强化学习基本算法	第27-29页
2.3 强化学习的探索策略	第29-33页
2.3.1 随机探索策略	第30-31页
2.3.2 系统性探索策略	第31-33页
2.4 强化学习样本效率的理论研究	第33-38页
2.4.1 早期的算法收敛性研究	第34-35页
2.4.2 强化学习PAC-MDP理论	第35-37页
2.4.3 其他相关理论工作	第37-38页
2.5 已有样本效率理论的主要缺陷	第38-40页
2.6 本章小结	第40-41页
第3章停更样本复杂度与谨慎度逐增的乐观原则	第41-67页
3.1 研究背景	第42-43页
3.2 PAC-MDP理论与R-MAX、V-MAX算法	第43-46页
3.3 停更样本复杂度	第46-49页
3.4 谨慎度逐增的乐观原则(ICO原则)	第49-56页
3.4.1 谨慎度逐增R-MAX算法(ICR)	第50-52页
3.4.2 ICR算法样本效率理论分析	第52-54页
3.4.3 ICR算法参数设置	第54-55页
3.4.4 谨慎度逐增V-MAX算法(ICV)	第55-56页
3.5 实验研究	第56-65页
3.5.1 测试问题	第56-58页
3.5.2 性能指标	第58-60页
3.5.3 探索策略性能测试	第60-63页
3.5.4 关于停更概率的实验	第63-65页
3.6 本章小结	第65-67页
第4章强化学习成功概率理论分析	第67-95页
4.1 研究背景	第68-70页
4.2 强化学习成功概率分析框架	第70-74页
4.2.1 成功概率定义与基本数学性质	第70-71页
4.2.2 成功概率与各因素间的依赖关系及基本分析流程	第71-72页
4.2.3 成功概率分析的应用方法	第72-73页
4.2.4 成功概率分析与PAC-MDP分析的比较	第73-74页
4.3 链式MDP的成功概率分析	第74-87页
4.3.1 链式MDP	第74-76页
4.3.2 支配策略及价值函数〈V~л〉	第76-79页
4.3.3 原型算法,访问次数〈N(s,a)〉及〈N_(s,a,s')〉,以及遍历事件E_trav~л	第79-82页
4.3.4 由估计价值〈V~л〉到л-成功事件	第82-84页
4.3.5 成功概率P~л、P~*的计算	第84-87页
4.4 实验研究	第87-93页
4.4.1 链式MDP上的实验	第87-90页
4.4.2 在迷宫MDP上的应用	第90-93页
4.5 本章小结	第93-95页
第5章强化学习价值估计的偏态	第95-114页
5.1 研究背景	第95-97页
5.2 偏态与对数正态分布	第97-98页
5.3 一般MDP下状态价值估计的对数正态性	第98-104页
5.3.1 分解至归一化单回报Markov链	第99页
5.3.2 进一步分解至路径状态价值	第99-101页
5.3.3 路径状态价值的对数正态性	第101-104页
5.3.4 状态价值估计的对数正态性	第104页
5.4 估计价值偏态对学习的不利影响及应对措施	第104-108页
5.4.1 状态价值估计的偏态方向	第104-106页
5.4.2 状态价值估计的偏态尺度	第106-108页
5.4.3 应对措施汇总	第108页
5.5 实验研究	第108-112页
5.5.1 链式MDP上的实验	第108-111页
5.5.2 迷宫MDP上的实验	第111-112页
5.6 本章小结	第112-114页
第6章总结与展望	第114-118页
6.1 工作总结	第114-116页
6.2 未来展望	第116-118页
参考文献	第118-127页
致谢	第127-128页
在读期间发表的学术论文与取得的研究成果	第128页