首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--机器人技术论文--机器人论文

基于强化学习的多机器人围捕策略的研究

摘要第1-5页
ABSTRACT第5-8页
第一章 引言第8-11页
   ·课题的研究背景第8-9页
     ·追捕-逃跑问题第8-9页
     ·强化学习第9页
   ·本文的研究内容第9页
   ·本文的组织第9-11页
第二章 强化学习第11-20页
   ·强化学习概述第11页
   ·MARKOV 决策过程第11-12页
   ·强化学习系统的结构模型第12-13页
   ·强化学习系统的基本要素第13页
   ·瞬时差分算法第13-14页
   ·Q 学习第14-15页
     ·Q 学习算法第14-15页
     ·Q 学习算法的收敛性分析第15页
   ·分层强化学习算法第15-19页
     ·半马尔可夫决策过程SMDP第16页
     ·Option 方法第16-18页
     ·HAM 方法第18-19页
     ·MAXQ 方法第19页
   ·本章小结第19-20页
第三章 基于OPTION 方法的多机人围捕策略第20-27页
   ·状态空间及机器人动作的离散化第20页
   ·围捕成功条件第20-21页
   ·基于Q 学习的围捕策略第21-23页
     ·奖赏函数第21-22页
     ·动作选择第22页
     ·Q 学习过程第22-23页
   ·OPTION 方法实现围捕策略第23-25页
     ·Option 抽象第23页
     ·基于Option 的分层设计第23-25页
     ·围捕算法第25页
   ·本章小节第25-27页
第四章 算法仿真第27-34页
   ·仿真环境第27-28页
   ·机器人避障策略第28-29页
   ·行为综合第29-30页
   ·参数设置第30页
   ·基于Q 学习方法的围捕算法仿真结果第30-31页
   ·基于OPTION 方法的围捕策略仿真结果第31-33页
   ·本章小结第33-34页
第五章 结论及展望第34-35页
参考文献第35-38页
致谢第38-39页
在学期间公开发表论文及著作情况第39页

论文共39页,点击 下载论文
上一篇:延时混沌系统的同步与控制
下一篇:一致性规划的实时并行化规划解算法研究