半Markov决策过程强化学习算法研究

摘要	第4-5页
ABSTRACT	第5页
第1章绪论	第8-14页
1.1 课题背景和意义	第8-10页
1.2 国内外研究现状	第10-13页
1.2.1 表格型强化学习	第10-11页
1.2.2 近似型强化学习	第11-12页
1.2.3 分层强化学习	第12页
1.2.4 探索和利用平衡型强化学习	第12-13页
1.3 主要研究内容	第13-14页
第2章马氏过程和半马氏过程	第14-23页
2.1 马尔可夫决策过程	第14-18页
2.2 半马尔可夫决策过程	第18-22页
2.3 本章小结	第22-23页
第3章基于性能灵敏度分析的强化学习	第23-41页
3.1 马氏无模型强化学习研究	第23-29页
3.1.1 马氏无模型强化学习算法	第23-26页
3.1.2 基于四环马氏过程的仿真实验	第26-29页
3.2 性能灵敏度分析方法	第29-31页
3.3 半马氏无模型强化学习研究	第31-40页
3.3.1 半马氏无模型强化学习算法	第32-36页
3.3.2 基于三状态半马氏过程的仿真实验	第36-40页
3.4 本章小结	第40-41页
第4章半马氏强化学习算法比较研究	第41-56页
4.1 增量值迭代强化学习	第41-49页
4.1.1 增量值迭代强化学习算法	第41-44页
4.1.2 三状态半马氏过程实验仿真结果	第44-46页
4.1.3 无人车实验仿真结果	第46-49页
4.2 随机最短路值迭代强化学习	第49-55页
4.2.1 随机最短路值迭代强化学习算法	第50-52页
4.2.2 三状态半马氏过程实验仿真结果	第52-53页
4.2.3 无人车实验仿真结果	第53-55页
4.3 本章小结	第55-56页
结论	第56-58页
参考文献	第58-62页
攻读硕士学位期间发表的论文及其它成果	第62-64页
致谢	第64页