MDP距离度量在强化学习迁移中的应用

摘要	第4-5页
Abstract	第5页
第一章引言	第10-16页
1.1 研究背景	第10页
1.2 马尔可夫决策过程	第10-11页
1.3 强化学习	第11-13页
1.4 迁移学习和强化学习迁移	第13-14页
1.5 MDP距离度量	第14页
1.6 本文组织	第14-16页
第二章背景知识	第16-39页
2.1 MDP的研究综述和分析	第16-25页
2.1.1 MDP的定义及性质	第16页
2.1.2 MDP的最优策略	第16-17页
2.1.3 离散状态MDP收敛性证明	第17-20页
2.1.4 连续状态MDP收敛性证明	第20-25页
2.2 强化学习	第25-34页
2.3 迁移学习	第34-39页
2.3.1 单源任务迁移	第35-36页
2.3.2 多源任务迁移	第36-39页
第三章概率状态距离度量	第39-48页
3.1 Kantorovich距离	第41-46页
3.1.1 问题的提出	第41-43页
3.1.2 K距离的提出	第43-45页
3.1.3 其他距离度量	第45-46页
3.2 概率状态距离度量	第46页
3.3 Bisimulation划分	第46-48页
第四章 MDP距离度量及有效性说明	第48-63页
4.1 相同MDP中状态距离度量	第48-52页
4.2 不同MDP中状态距离度量	第52-54页
4.3 MDP度量的建立	第54-58页
4.4 度量性质证明	第58-63页
第五章多源强化学习迁移	第63-78页
5.1 知识迁移	第63-65页
5.2 MDP度量实验	第65-72页
5.2.1 等价度量	第65-70页
5.2.2 不等价度量	第70-72页
5.3 强化学习迁移实验	第72-78页
第六章总结与展望	第78-81页
6.1 总结	第78-79页
6.2 展望	第79-81页
参考文献	第81-86页
简历与科研成果	第86-87页
致谢	第87-88页