基于强化学习的应急任务动态规划研究
摘要 | 第1-5页 |
Abstract | 第5-8页 |
1 绪论 | 第8-15页 |
·课题来源 | 第8页 |
·研究背景、目的及意义 | 第8-9页 |
·国内外研究现状 | 第9-13页 |
·本文研究内容 | 第13-14页 |
·本文组织结构 | 第14-15页 |
2 强化学习相关理论和方法 | 第15-24页 |
·马尔可夫决策过程 | 第15-16页 |
·强化学习系统的结构模型 | 第16-17页 |
·强化学习系统的基本要素 | 第17-18页 |
·瞬时差分算法 | 第18页 |
·Q 学习 | 第18-20页 |
·分层强化学习算法 | 第20-24页 |
3 基于 option 的应急救援任务模型 | 第24-49页 |
·应急救援任务环境概述 | 第24-28页 |
·应急救援任务模型 | 第28-36页 |
·基于 Q 学习的任务分配策略 | 第36-40页 |
·基于 Option 的任务分配策略 | 第40-48页 |
·本章小结 | 第48-49页 |
4 算例研究 | 第49-58页 |
·案例介绍 | 第49页 |
·仿真环境及参数设置 | 第49-51页 |
·仿真结果 | 第51-57页 |
·本章小结 | 第57-58页 |
5 总结与展望 | 第58-60页 |
·总结 | 第58-59页 |
·展望 | 第59-60页 |
致谢 | 第60-61页 |
参考文献 | 第61-65页 |
附录 1 攻读学位期间发表的学术论文 | 第65-66页 |
附录 2 攻读学位期间参与的科研项目 | 第66页 |