基于多重门限机制的异步深度强化学习

中文摘要	第4-6页
abstract	第6-7页
第一章引言	第10-20页
1.1 研究背景及意义	第10-13页
1.1.1 研究背景	第10-12页
1.1.2 研究意义	第12-13页
1.2 研究现状	第13-17页
1.3 研究内容	第17-18页
1.4 论文组织结构	第18-20页
第二章背景知识	第20-30页
2.1 马尔科夫决策过程	第20-22页
2.2 强化学习基本方法	第22-27页
2.2.1 时间差分方法	第22-24页
2.2.2 策略梯度方法	第24-25页
2.2.3 行动者-评论家方法	第25-27页
2.3 异步深度强化学习	第27-29页
2.4 本章小结	第29-30页
第三章基于多重门限机制的异步优势行动者-评论家算法	第30-45页
3.1 多重门限机制	第30-34页
3.1.1 门限机制	第30-32页
3.1.2 多重门限机制	第32-34页
3.2 基于多重门限机制的异步优势行动者-评论家算法	第34-36页
3.2.1 训练算法描述	第34-35页
3.2.2 模型架构描述	第35-36页
3.3 仿真实验	第36-44页
3.3.1 实验描述	第36-38页
3.3.2 实验设置	第38页
3.3.3 实验结果与分析	第38-44页
3.4 本章小结	第44-45页
第四章基于跳跃连接的异步优势行动者-评论家算法	第45-56页
4.1 跳跃连接	第45-47页
4.2 基于跳跃连接的异步优势行动者-评论家算法	第47-50页
4.2.1 模型架构	第47-49页
4.2.2 模型参数更新方式	第49-50页
4.3 仿真实验	第50-55页
4.3.1 实验描述以及参数设置	第50-52页
4.3.2 实验结果及分析	第52-55页
4.4 本章小结	第55-56页
第五章基于多重门限机制的自适应近邻区间策略优化算法	第56-67页
5.1 置信区间策略优化方法	第56-58页
5.2 自适应区间裁剪方法	第58-59页
5.3 基于多重门限机制的自适应近邻区间策略优化算法	第59-61页
5.4 仿真实验	第61-66页
5.4.1 实验描述及参数设置	第61-62页
5.4.2 实验结果及分析	第62-66页
5.5 本章小结	第66-67页
第六章总结与展望	第67-69页
6.1 总结	第67-68页
6.2 展望	第68-69页
参考文献	第69-76页
攻读硕士学位期间公开发表(录用)的论文及参与的项目	第76-77页
一、公开发表(录用)的学术论文	第76页
二、专利	第76页
三、参加的科研项目	第76-77页
致谢	第77-78页