首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于强化学习的多智能体协同机制研究

摘要第1-6页
ABSTRACT第6-10页
第1章 绪论第10-18页
   ·研究背景及目的意义第10-12页
     ·多智能体系统第11页
     ·多智能体系统的优点第11页
     ·多智能体强化学习面临的问题第11-12页
   ·研究现状第12-16页
     ·MARL研究现状第12-14页
     ·RoboCup研究现状第14-16页
       ·RoboCup由来第14-15页
       ·RoboCup仿真赛第15页
       ·RoboCup研究现状第15-16页
   ·论文的主要内容和结构第16-17页
     ·论文的主要内容第16-17页
     ·论文的主要结构第17页
   ·本章小结第17-18页
第2章 课题相关背景知识第18-30页
   ·强化学习概述第18-19页
   ·强化学习算法第19-22页
     ·动态规划算法第19-20页
     ·蒙特卡罗算法第20页
     ·TD算法第20-21页
     ·Q-learning算法第21-22页
   ·分层强化学习模型第22-24页
     ·马尔科夫决策过程第22-23页
     ·半马尔科夫决策过程第23-24页
   ·RoboCup2D Server平台第24-29页
     ·服务器的地位和作用第25页
     ·感知模型第25-26页
     ·运动仿真模型第26-27页
     ·基本行为模型第27-29页
     ·环境干扰第29页
   ·本章小结第29-30页
第3章 状态抽象的分层强化学习策略设计第30-58页
   ·部分可观马尔科夫决策过程第30-34页
     ·状态观测第31-32页
     ·信念状态第32-33页
     ·主观贝叶斯更新第33-34页
   ·MAXQ分层强化学习第34-43页
     ·MAXQ任务层次分解第35页
     ·MAXQ分层值函数第35-37页
     ·投影值函数表示第37-40页
     ·MAXQ-0 学习算法第40-42页
     ·MAXQ-Q学习算法第42-43页
   ·基于状态抽象的与或图的策略表示第43-46页
     ·与或图策略表示第44-46页
     ·状态抽象第46页
   ·多智能体决策框架设计第46-48页
   ·算法在Robocup2D上的应用第48-57页
     ·单个智能体决策框架第48-50页
     ·决策问题的层次分解模型第50-52页
     ·实验及结果第52-57页
       ·结合算法战术分析第52-55页
       ·比赛结果及分析第55-57页
   ·本章小结第57-58页
第4章 算法在NAO智能体上的实验第58-71页
   ·NAO机器人背景简介第58-59页
   ·NAO智能体简介第59-64页
     ·NAO硬件介绍第59-60页
     ·NAO系统软件第60-64页
   ·智能体导航问题第64-65页
   ·实验结果与分析第65-70页
   ·本章小结第70-71页
第5章 结论与展望第71-73页
   ·全文总结第71页
   ·工作展望第71-73页
参考文献第73-76页
致谢第76-77页
攻读学位期间参加的科研项目和成果第77页

论文共77页,点击 下载论文
上一篇:基于鱼群行为分析的水质监测系统研究
下一篇:基于数据的自学习反馈控制系统研究