首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

结合围捕问题的合作多智能体强化学习研究

第1章 绪论第1-27页
   ·引言第12-13页
   ·多agent学习第13-20页
     ·研究内容第13-15页
     ·研究现状第15-17页
     ·存在的问题及解决方案第17-20页
   ·追捕-逃跑问题第20-24页
     ·研究内容第21页
     ·研究现状第21-23页
     ·存在的问题第23-24页
   ·本文研究内容和研究方案第24-25页
   ·本文的组织结构第25-27页
第2章 多agent学习的理论基础第27-38页
   ·Q学习第27-29页
     ·Q学习形式描述第27-29页
     ·Q学习收敛性证明第29页
   ·对策论第29-33页
     ·对策的形式定义第30页
     ·对策分类及相关解概念的定义第30-32页
     ·随机对策定义第32-33页
   ·Markov随机对策框架下的多agent学习算法介绍第33-37页
     ·Minimax-Q第34页
     ·Nash-Q第34-35页
     ·FFQ第35-36页
     ·CEQ第36-37页
   ·本章小结第37-38页
第3章 多agent学习算法的研究第38-62页
   ·完全合作多agent学习第38-50页
     ·多agent的信息共享方式第39页
     ·基于先验知识的共享策略多agent学习第39-43页
     ·合作粒子群神经网络加快学习速度第43-50页
   ·理性合作多agent学习的研究第50-60页
     ·理性合作的Pareto-Q学习第50-54页
     ·多agent学习过程中的协调第54-57页
     ·实验及结果分析第57-60页
     ·结论第60页
   ·本章小结第60-62页
第4章 追捕-逃跑任务及算法应用研究第62-93页
   ·追捕-逃跑任务的研究形式第62-63页
     ·有限图形式第62页
     ·栅格形式第62-63页
   ·构建追捕-逃跑系统第63-69页
     ·任务背景描述及角色定义第63-66页
     ·围捕机器人团队的系统框架及流程第66-68页
     ·协作机器人间的通信第68-69页
   ·实现围捕机器人的任务级协作和协调第69-82页
     ·围捕中的整体任务第70-74页
     ·“伸缩式”目标搜索算法第74-76页
     ·目标围捕中的任务分配方法第76-81页
     ·协作押送算法第81-82页
   ·实现基于合作学习的行为级规划第82-91页
     ·基于行为的定义第83页
     ·避碰和追踪行为控制产生方法第83-87页
     ·基于先验知识的合作强化学习调整重要性参数第87-91页
   ·本章小结第91-93页
第5章 追捕-逃跑仿真演示系统及结果分析第93-103页
   ·仿真系统介绍第93-96页
     ·仿真系统结构介绍第93-96页
     ·系统流程介绍第96页
   ·任务仿真结果及分析第96-100页
   ·强化学习方法仿真结果及比较分析第100-102页
   ·本章小结第102-103页
结论第103-106页
参考文献第106-117页
攻读博士学位期间发表的论文第117-118页
致谢第118页

论文共118页,点击 下载论文
上一篇:极大子群的CI-截与有限群的可解性
下一篇:中日思想政治教育比较研究