摘要 | 第1-4页 |
ABSTRACT | 第4-8页 |
第一章 绪论 | 第8-18页 |
·研究背景与研究意义 | 第8页 |
·国内外研究现状 | 第8-11页 |
·救援机器人系统 | 第11-16页 |
·RoboCupRescue救援机器人比赛 | 第11-13页 |
·救援机器人仿真比赛系统 | 第13-16页 |
·论文主要内容及构成 | 第16-18页 |
第二章 自协调协作模型总体结构 | 第18-32页 |
·协作的目的 | 第18页 |
·自协调协作模型设计要求 | 第18-19页 |
·几种常见的Multi-Agent体系结构 | 第19-22页 |
·RoboCupRescue系统中主要面临的协作问题 | 第22-23页 |
·状态预测问题的提出 | 第23-24页 |
·基于状态预测的多智能体自协调模型结构 | 第24-25页 |
·中央决策层强化学习算法选择 | 第25-30页 |
·强化学习概念和原理 | 第25-26页 |
·强化学习系统的组成要素 | 第26-28页 |
·强化学习分类 | 第28-30页 |
·本章小结 | 第30-32页 |
第三章 基于强化学习的状态预测方法设计 | 第32-47页 |
·RoboCupRescue系统的世界模型及对状态预测的影响 | 第32-35页 |
·RoboCupRescue系统的世界模型 | 第32-33页 |
·世界模型对基于强化学习的状态预测的影响 | 第33-35页 |
·针对状态预测的Q学习算法设计 | 第35-39页 |
·Q学习算法改进问题的提出 | 第35-36页 |
·Q学习算法的改进 | 第36-39页 |
·基于改进 Q学习的世界模型状态预测方法设计 | 第39-46页 |
·世界模型(状态空间)的建立 | 第39-43页 |
·世界模型(动作空间)的建立 | 第43-44页 |
·预测状态空间的建立 | 第44页 |
·奖赏函数的设计 | 第44-45页 |
·预测状态的选择策略 | 第45-46页 |
·学习更新 | 第46页 |
·本章小结 | 第46-47页 |
第四章 基于状态预测的多Agent自协调模型设计 | 第47-61页 |
·决策方式 | 第47页 |
·基于状态预测和改进Q学习的阵型决策设计 | 第47-53页 |
·针对阵型决策的Q学习算法改进 | 第47-49页 |
·阵型决策方法设计 | 第49-53页 |
·行为层设计 | 第53-60页 |
·反应式策略 | 第54页 |
·Agent行为效用评估 | 第54-56页 |
·基于改进栅格法的Agent路径规划蚁群算法设计 | 第56-60页 |
·本章小结 | 第60-61页 |
第五章 软件设计及仿真分析 | 第61-70页 |
·软件设计目标 | 第61页 |
·软件设计 | 第61-63页 |
·仿真实验与分析 | 第63-69页 |
·仿真环境介绍 | 第63-65页 |
·仿真实验内容与设置 | 第65-66页 |
·仿真结果分析 | 第66-69页 |
·本章小结 | 第69-70页 |
第六章 结论与展望 | 第70-72页 |
·结论 | 第70-71页 |
·展望 | 第71-72页 |
参考文献 | 第72-77页 |
致谢 | 第77-78页 |
攻读学位期间主要的研究成果 | 第78页 |