半Markov决策过程强化学习算法研究
| 摘要 | 第4-5页 |
| ABSTRACT | 第5页 |
| 第1章 绪论 | 第8-14页 |
| 1.1 课题背景和意义 | 第8-10页 |
| 1.2 国内外研究现状 | 第10-13页 |
| 1.2.1 表格型强化学习 | 第10-11页 |
| 1.2.2 近似型强化学习 | 第11-12页 |
| 1.2.3 分层强化学习 | 第12页 |
| 1.2.4 探索和利用平衡型强化学习 | 第12-13页 |
| 1.3 主要研究内容 | 第13-14页 |
| 第2章 马氏过程和半马氏过程 | 第14-23页 |
| 2.1 马尔可夫决策过程 | 第14-18页 |
| 2.2 半马尔可夫决策过程 | 第18-22页 |
| 2.3 本章小结 | 第22-23页 |
| 第3章 基于性能灵敏度分析的强化学习 | 第23-41页 |
| 3.1 马氏无模型强化学习研究 | 第23-29页 |
| 3.1.1 马氏无模型强化学习算法 | 第23-26页 |
| 3.1.2 基于四环马氏过程的仿真实验 | 第26-29页 |
| 3.2 性能灵敏度分析方法 | 第29-31页 |
| 3.3 半马氏无模型强化学习研究 | 第31-40页 |
| 3.3.1 半马氏无模型强化学习算法 | 第32-36页 |
| 3.3.2 基于三状态半马氏过程的仿真实验 | 第36-40页 |
| 3.4 本章小结 | 第40-41页 |
| 第4章 半马氏强化学习算法比较研究 | 第41-56页 |
| 4.1 增量值迭代强化学习 | 第41-49页 |
| 4.1.1 增量值迭代强化学习算法 | 第41-44页 |
| 4.1.2 三状态半马氏过程实验仿真结果 | 第44-46页 |
| 4.1.3 无人车实验仿真结果 | 第46-49页 |
| 4.2 随机最短路值迭代强化学习 | 第49-55页 |
| 4.2.1 随机最短路值迭代强化学习算法 | 第50-52页 |
| 4.2.2 三状态半马氏过程实验仿真结果 | 第52-53页 |
| 4.2.3 无人车实验仿真结果 | 第53-55页 |
| 4.3 本章小结 | 第55-56页 |
| 结论 | 第56-58页 |
| 参考文献 | 第58-62页 |
| 攻读硕士学位期间发表的论文及其它成果 | 第62-64页 |
| 致谢 | 第64页 |