基于强化学习的多机器人围捕策略的研究

摘要	第1-5页
ABSTRACT	第5-8页
第一章引言	第8-11页
·课题的研究背景	第8-9页
·追捕-逃跑问题	第8-9页
·强化学习	第9页
·本文的研究内容	第9页
·本文的组织	第9-11页
第二章强化学习	第11-20页
·强化学习概述	第11页
·MARKOV 决策过程	第11-12页
·强化学习系统的结构模型	第12-13页
·强化学习系统的基本要素	第13页
·瞬时差分算法	第13-14页
·Q 学习	第14-15页
·Q 学习算法	第14-15页
·Q 学习算法的收敛性分析	第15页
·分层强化学习算法	第15-19页
·半马尔可夫决策过程SMDP	第16页
·Option 方法	第16-18页
·HAM 方法	第18-19页
·MAXQ 方法	第19页
·本章小结	第19-20页
第三章基于OPTION 方法的多机人围捕策略	第20-27页
·状态空间及机器人动作的离散化	第20页
·围捕成功条件	第20-21页
·基于Q 学习的围捕策略	第21-23页
·奖赏函数	第21-22页
·动作选择	第22页
·Q 学习过程	第22-23页
·OPTION 方法实现围捕策略	第23-25页
·Option 抽象	第23页
·基于Option 的分层设计	第23-25页
·围捕算法	第25页
·本章小节	第25-27页
第四章算法仿真	第27-34页
·仿真环境	第27-28页
·机器人避障策略	第28-29页
·行为综合	第29-30页
·参数设置	第30页
·基于Q 学习方法的围捕算法仿真结果	第30-31页
·基于OPTION 方法的围捕策略仿真结果	第31-33页
·本章小结	第33-34页
第五章结论及展望	第34-35页
参考文献	第35-38页
致谢	第38-39页
在学期间公开发表论文及著作情况	第39页