模型无关的贝叶斯强化学习方法研究

中文摘要	第4-5页
Abstract	第5-6页
第一章引言	第9-17页
1.1 研究背景及意义	第9-11页
1.2 国内外研究现状	第11-14页
1.3 主要工作	第14-15页
1.4 论文组织结构	第15-17页
第二章相关工作	第17-26页
2.1 强化学习的基本原理	第17-19页
2.2 贝叶斯推理	第19-20页
2.3 高斯过程	第20-21页
2.4 几种常用的强化学习算法	第21-25页
2.4.1 动态规划方法	第21-22页
2.4.2 蒙特卡洛方法	第22-23页
2.4.3 TD(λ)学习方法	第23-24页
2.4.4 Q 学习方法	第24-25页
2.5 本章小结	第25-26页
第三章基于优先级扫描 Dyna 结构的贝叶斯 Q 学习	第26-41页
3.1 Dyna 结构以及优先级扫描	第26-27页
3.2 优先级扫描 Dyna 结构的贝叶斯 Q 学习算法及分析	第27-33页
3.2.1 贝叶斯 Q 学习	第27-30页
3.2.2 Dyna-PS-BayesQL 算法	第30-32页
3.2.3 Dyna-PS-BayesQL 算法分析	第32-33页
3.3 实验及结果分析	第33-40页
3.3.1 链问题	第33-35页
3.3.2 迷宫导航问题	第35-40页
3.4 本章小结	第40-41页
第四章基于随机投影的高斯过程时间差分算法	第41-56页
4.1 高斯过程时间差分算法	第41-44页
4.2 基于随机投影的高斯过程时间差分算法及分析	第44-48页
4.2.1 稀疏化方法	第44-46页
4.2.2 随机投影算法	第46-48页
4.3 基于随机投影的高斯过程时间差分算法	第48-51页
4.4 实验及结果分析	第51-55页
4.5 本章小结	第55-56页
第五章基于状态依赖探索的贝叶斯策略梯度算法	第56-68页
5.1 策略梯度强化学习框架	第56-57页
5.2 贝叶斯积分梯度估计方法	第57-60页
5.3 状态依赖探索的贝叶斯策略梯度算法	第60-63页
5.3.1 状态依赖探索	第60-61页
5.3.2 算法及分析	第61-63页
5.4 实验结果分析	第63-67页
5.5 本章小结	第67-68页
第六章总结与展望	第68-70页
6.1 本文工作总结	第68-69页
6.2 工作展望	第69-70页
参考文献	第70-75页
攻读硕士学位期间发表（录用）的论文及参与的项目	第75-76页
一、发表（录用）的论文	第75页
二、科研成果	第75页
三、参加的科研项目	第75-76页
致谢	第76-77页