部分观测马尔科夫决策过程中基于记忆的强化学习问题研究

学位论文的主要创新点	第3-4页
摘要	第4-5页
Abstract	第5页
第一章绪论	第8-12页
1.1 研究背景	第8页
1.2 POMDP问题研究现状	第8-11页
1.2.1 基于模型和无模型方法	第9页
1.2.2 POMDP问题国内研究现状	第9-10页
1.2.3 POMDP问题国外研究现状	第10-11页
1.3 论文结构安排	第11-12页
第二章部分观测马尔科夫中基于记忆的强化学习问题	第12-20页
2.1 POMDP模型	第12-14页
2.1.1 模型描述	第12-13页
2.1.2 求解算法	第13-14页
2.2 强化学习	第14-16页
2.2.1 强化学习简介	第14-15页
2.2.2 强化学习的基本原理	第15-16页
2.2.3 强化学习求解部分观测马尔科夫问题	第16页
2.3 POMDP中基于记忆的强化学习算法	第16-20页
2.3.1 无记忆方法概述	第16-17页
2.3.2 基于记忆的方法概述	第17-20页
第三章 EIU-Tree算法	第20-30页
3.1 引言	第20页
3.2 U-Tree算法简介	第20-22页
3.3 EIU-Tree算法详解	第22-27页
3.4 实验仿真	第27-28页
3.5 本章小结	第28-30页
第四章 SU-Tree算法	第30-42页
4.1 引言	第30页
4.2 Q-学习和Sarsa(λ)算法	第30-32页
4.2.1 Q-学习	第30-31页
4.2.2 Sarsa(λ)学习	第31-32页
4.3 MU-Tree算法	第32-33页
4.4 SU-Tree算法	第33-39页
4.4.1 SU-Tree算法详解	第33-38页
4.4.2 SU-Tree算法仿真实验	第38-39页
4.5 本章小结	第39-42页
第五章奶酪迷宫问题	第42-46页
5.1 奶酪迷宫问题模型	第42页
5.2 实验仿真	第42-46页
第六章总结与展望	第46-48页
6.1 论文总结	第46页
6.2 研究展望	第46-48页
参考文献	第48-52页
发表论文和参加科研情况	第52-54页
致谢	第54页