平均报酬准则下的逆向强化学习算法研究

摘要	第4-5页
Abstract	第5页
第1章绪论	第8-18页
1.1 课题背景及研究意义	第8-12页
1.1.1 强化学习和学徒学习介绍	第9-11页
1.1.2 逆向强化学习介绍	第11-12页
1.2 国内外研究现状及分析	第12-15页
1.3 主要研究内容	第15-16页
1.4 结构框架	第16-18页
第2章基础知识及仿真实验平台	第18-25页
2.1 基础知识介绍	第18-21页
2.1.1 马尔可夫决策过程	第18-20页
2.1.2 凸优化	第20-21页
2.2 仿真实验平台	第21-24页
2.2.1 方格迷宫仿真实验平台	第21-23页
2.2.2 无人车仿真实验平台	第23-24页
2.3 本章小结	第24-25页
第3章基于灵敏度的逆强化学习	第25-34页
3.1 基于灵敏度的逆强化学习研究	第25-28页
3.1.1 性能差公式	第25-27页
3.1.2 基于灵敏度的逆强化学习算法	第27-28页
3.1.3 基于灵敏度的逆强化学习求解	第28页
3.2 基于方格迷宫的仿真实验	第28-32页
3.3 本章小结	第32-34页
第4章逆强化学习算法比较研究	第34-66页
4.1 基于最大边际的逆强化学习	第35-45页
4.1.1 基于最大边际的逆强化学习算法	第37-38页
4.1.2 方格迷宫仿真结果	第38-42页
4.1.3 无人车仿真结果	第42-45页
4.2 结合零和博弈思想的逆强化学习	第45-57页
4.2.1 结合零和博弈思想的逆强化学习算法	第46-49页
4.2.2 方格迷宫仿真结果	第49-54页
4.2.3 无人车仿真结果	第54-57页
4.3 结合自然梯度思想的逆强化学习	第57-65页
4.3.1 自然梯度	第59-60页
4.3.2 基于自然梯度的逆强化学习算法	第60-61页
4.3.3 方格迷宫仿真结果	第61-65页
4.4 本章小结	第65-66页
结论	第66-68页
参考文献	第68-72页
攻读硕士学位期间发表的学术论文	第72-74页
致谢	第74页