半Markov决策过程强化学习算法研究
摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第1章 绪论 | 第8-14页 |
1.1 课题背景和意义 | 第8-10页 |
1.2 国内外研究现状 | 第10-13页 |
1.2.1 表格型强化学习 | 第10-11页 |
1.2.2 近似型强化学习 | 第11-12页 |
1.2.3 分层强化学习 | 第12页 |
1.2.4 探索和利用平衡型强化学习 | 第12-13页 |
1.3 主要研究内容 | 第13-14页 |
第2章 马氏过程和半马氏过程 | 第14-23页 |
2.1 马尔可夫决策过程 | 第14-18页 |
2.2 半马尔可夫决策过程 | 第18-22页 |
2.3 本章小结 | 第22-23页 |
第3章 基于性能灵敏度分析的强化学习 | 第23-41页 |
3.1 马氏无模型强化学习研究 | 第23-29页 |
3.1.1 马氏无模型强化学习算法 | 第23-26页 |
3.1.2 基于四环马氏过程的仿真实验 | 第26-29页 |
3.2 性能灵敏度分析方法 | 第29-31页 |
3.3 半马氏无模型强化学习研究 | 第31-40页 |
3.3.1 半马氏无模型强化学习算法 | 第32-36页 |
3.3.2 基于三状态半马氏过程的仿真实验 | 第36-40页 |
3.4 本章小结 | 第40-41页 |
第4章 半马氏强化学习算法比较研究 | 第41-56页 |
4.1 增量值迭代强化学习 | 第41-49页 |
4.1.1 增量值迭代强化学习算法 | 第41-44页 |
4.1.2 三状态半马氏过程实验仿真结果 | 第44-46页 |
4.1.3 无人车实验仿真结果 | 第46-49页 |
4.2 随机最短路值迭代强化学习 | 第49-55页 |
4.2.1 随机最短路值迭代强化学习算法 | 第50-52页 |
4.2.2 三状态半马氏过程实验仿真结果 | 第52-53页 |
4.2.3 无人车实验仿真结果 | 第53-55页 |
4.3 本章小结 | 第55-56页 |
结论 | 第56-58页 |
参考文献 | 第58-62页 |
攻读硕士学位期间发表的论文及其它成果 | 第62-64页 |
致谢 | 第64页 |