第1章 绪论 | 第1-27页 |
·引言 | 第12-13页 |
·多agent学习 | 第13-20页 |
·研究内容 | 第13-15页 |
·研究现状 | 第15-17页 |
·存在的问题及解决方案 | 第17-20页 |
·追捕-逃跑问题 | 第20-24页 |
·研究内容 | 第21页 |
·研究现状 | 第21-23页 |
·存在的问题 | 第23-24页 |
·本文研究内容和研究方案 | 第24-25页 |
·本文的组织结构 | 第25-27页 |
第2章 多agent学习的理论基础 | 第27-38页 |
·Q学习 | 第27-29页 |
·Q学习形式描述 | 第27-29页 |
·Q学习收敛性证明 | 第29页 |
·对策论 | 第29-33页 |
·对策的形式定义 | 第30页 |
·对策分类及相关解概念的定义 | 第30-32页 |
·随机对策定义 | 第32-33页 |
·Markov随机对策框架下的多agent学习算法介绍 | 第33-37页 |
·Minimax-Q | 第34页 |
·Nash-Q | 第34-35页 |
·FFQ | 第35-36页 |
·CEQ | 第36-37页 |
·本章小结 | 第37-38页 |
第3章 多agent学习算法的研究 | 第38-62页 |
·完全合作多agent学习 | 第38-50页 |
·多agent的信息共享方式 | 第39页 |
·基于先验知识的共享策略多agent学习 | 第39-43页 |
·合作粒子群神经网络加快学习速度 | 第43-50页 |
·理性合作多agent学习的研究 | 第50-60页 |
·理性合作的Pareto-Q学习 | 第50-54页 |
·多agent学习过程中的协调 | 第54-57页 |
·实验及结果分析 | 第57-60页 |
·结论 | 第60页 |
·本章小结 | 第60-62页 |
第4章 追捕-逃跑任务及算法应用研究 | 第62-93页 |
·追捕-逃跑任务的研究形式 | 第62-63页 |
·有限图形式 | 第62页 |
·栅格形式 | 第62-63页 |
·构建追捕-逃跑系统 | 第63-69页 |
·任务背景描述及角色定义 | 第63-66页 |
·围捕机器人团队的系统框架及流程 | 第66-68页 |
·协作机器人间的通信 | 第68-69页 |
·实现围捕机器人的任务级协作和协调 | 第69-82页 |
·围捕中的整体任务 | 第70-74页 |
·“伸缩式”目标搜索算法 | 第74-76页 |
·目标围捕中的任务分配方法 | 第76-81页 |
·协作押送算法 | 第81-82页 |
·实现基于合作学习的行为级规划 | 第82-91页 |
·基于行为的定义 | 第83页 |
·避碰和追踪行为控制产生方法 | 第83-87页 |
·基于先验知识的合作强化学习调整重要性参数 | 第87-91页 |
·本章小结 | 第91-93页 |
第5章 追捕-逃跑仿真演示系统及结果分析 | 第93-103页 |
·仿真系统介绍 | 第93-96页 |
·仿真系统结构介绍 | 第93-96页 |
·系统流程介绍 | 第96页 |
·任务仿真结果及分析 | 第96-100页 |
·强化学习方法仿真结果及比较分析 | 第100-102页 |
·本章小结 | 第102-103页 |
结论 | 第103-106页 |
参考文献 | 第106-117页 |
攻读博士学位期间发表的论文 | 第117-118页 |
致谢 | 第118页 |