基于强化学习的应急任务动态规划研究

摘要	第1-5页
Abstract	第5-8页
1 绪论	第8-15页
·课题来源	第8页
·研究背景、目的及意义	第8-9页
·国内外研究现状	第9-13页
·本文研究内容	第13-14页
·本文组织结构	第14-15页
2 强化学习相关理论和方法	第15-24页
·马尔可夫决策过程	第15-16页
·强化学习系统的结构模型	第16-17页
·强化学习系统的基本要素	第17-18页
·瞬时差分算法	第18页
·Q 学习	第18-20页
·分层强化学习算法	第20-24页
3 基于 option 的应急救援任务模型	第24-49页
·应急救援任务环境概述	第24-28页
·应急救援任务模型	第28-36页
·基于 Q 学习的任务分配策略	第36-40页
·基于 Option 的任务分配策略	第40-48页
·本章小结	第48-49页
4 算例研究	第49-58页
·案例介绍	第49页
·仿真环境及参数设置	第49-51页
·仿真结果	第51-57页
·本章小结	第57-58页
5 总结与展望	第58-60页
·总结	第58-59页
·展望	第59-60页
致谢	第60-61页
参考文献	第61-65页
附录 1 攻读学位期间发表的学术论文	第65-66页
附录 2 攻读学位期间参与的科研项目	第66页