基于自主优先课程学习的深度强化学习算法研究

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第9-13页
1.1 研究背景与意义	第9-10页
1.2 研究现状	第10-11页
1.3 本文的研究内容	第11-12页
1.4 本文的章节安排	第12-13页
第二章深度强化学习	第13-22页
2.1 强化学习	第13-16页
2.2 深度强化学习	第16-21页
2.2.1 研究进展	第16-17页
2.2.2 深度Q值网络	第17-20页
2.2.3 经验回放	第20-21页
2.3 本章小结	第21-22页
第三章自主优先课程学习算法	第22-50页
3.1 深度课程强化学习	第22-26页
3.2 自主优先课程存储	第26-30页
3.2.1 优先级经验回放	第26-28页
3.2.2 自主优先课程学习	第28-30页
3.3 重复惩罚	第30-35页
3.3.1 神经网络机器翻译中的覆盖机制	第31-33页
3.3.2 覆盖惩罚	第33-35页
3.4 深度课程强化学习算法框架	第35-37页
3.5 实验结果	第37-49页
3.5.1 Atari 2600游戏仿真平台	第37-40页
3.5.2 实验设置	第40-45页
3.5.3 实验结果	第45-49页
3.6 本章小结	第49-50页
第四章 DCRL与基于回放的深度强化学习算法的结合	第50-58页
4.1 双值网络	第50-54页
4.1.1 网络结构	第50-53页
4.1.2 实验结果	第53-54页
4.2 分型网络	第54-57页
4.2.1 网络结构	第54-56页
4.2.2 实验结果	第56-57页
4.3 本章小结	第57-58页
第五章总结与展望	第58-60页
5.1 总结	第58-59页
5.2 展望	第59-60页
参考文献	第60-68页
致谢	第68-69页
攻读硕士学位发表的论文	第69-70页