基于强化学习的应急任务动态规划研究
| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 1 绪论 | 第8-15页 |
| ·课题来源 | 第8页 |
| ·研究背景、目的及意义 | 第8-9页 |
| ·国内外研究现状 | 第9-13页 |
| ·本文研究内容 | 第13-14页 |
| ·本文组织结构 | 第14-15页 |
| 2 强化学习相关理论和方法 | 第15-24页 |
| ·马尔可夫决策过程 | 第15-16页 |
| ·强化学习系统的结构模型 | 第16-17页 |
| ·强化学习系统的基本要素 | 第17-18页 |
| ·瞬时差分算法 | 第18页 |
| ·Q 学习 | 第18-20页 |
| ·分层强化学习算法 | 第20-24页 |
| 3 基于 option 的应急救援任务模型 | 第24-49页 |
| ·应急救援任务环境概述 | 第24-28页 |
| ·应急救援任务模型 | 第28-36页 |
| ·基于 Q 学习的任务分配策略 | 第36-40页 |
| ·基于 Option 的任务分配策略 | 第40-48页 |
| ·本章小结 | 第48-49页 |
| 4 算例研究 | 第49-58页 |
| ·案例介绍 | 第49页 |
| ·仿真环境及参数设置 | 第49-51页 |
| ·仿真结果 | 第51-57页 |
| ·本章小结 | 第57-58页 |
| 5 总结与展望 | 第58-60页 |
| ·总结 | 第58-59页 |
| ·展望 | 第59-60页 |
| 致谢 | 第60-61页 |
| 参考文献 | 第61-65页 |
| 附录 1 攻读学位期间发表的学术论文 | 第65-66页 |
| 附录 2 攻读学位期间参与的科研项目 | 第66页 |