首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

多Agent强化学习及其应用研究

摘要第1-4页
Abstract第4-7页
第一章 绪论第7-11页
   ·强化学习概述第7-8页
   ·多 Agent 强化学习与多核技术第8-9页
     ·研究背景第8-9页
     ·研究现状第9页
   ·本文的主要工作和组织结构第9-11页
第二章 强化学习简介第11-19页
   ·强化学习与马尔可夫决策第11-12页
   ·强化学习基本模型第12-13页
   ·强化学习算法第13-16页
     ·瞬时差分学习第14-15页
     ·Sarsa 学习第15-16页
   ·Q 学习第16-18页
   ·本章小结第18-19页
第三章 多 Agent 强化学习第19-31页
   ·多 Agent 强化学习简介第19页
   ·多 Agent 强化学习模型第19-26页
     ·任务层第20-22页
     ·工作层第22-24页
     ·通信层第24-25页
     ·决策层第25-26页
   ·多 Agent 强化学习流程第26-27页
   ·与多核技术的结合第27-30页
     ·并行随机访问机模型第27-28页
     ·多核环境下的实现第28-29页
     ·多核环境下性能评价标准第29-30页
   ·本章小结第30-31页
第四章 基于主任务分发的多 Agent Q 学习第31-47页
   ·基于主任务分发的多 Agent Q 学习模型第31-33页
     ·同构环境任务层和工作层实现第31-32页
     ·基于信息融合方式的决策层实现第32页
     ·加锁模式通信层实现第32-33页
   ·多核环境下的实现第33-34页
   ·多 Agent Q 学习工作流程第34-35页
   ·机器人路径规划应用第35-36页
     ·仿真环境设置第35页
     ·机器人行为及行为瞬时奖赏函数的设计第35-36页
   ·仿真实验第36-45页
     ·简单环境第37-41页
     ·复杂环境第41-44页
     ·实验总结第44-45页
   ·本章小结第45-47页
第五章 基于子任务分配的多 Agent Q 学习第47-69页
   ·基于子任务分配的多 Agent Q 学习模型第47-50页
     ·异构环境任务层和工作层实现第47-48页
     ·基于信息仲裁技术的决策层实现第48-49页
     ·无锁模式通信层实现第49-50页
   ·多核环境下的实现第50-52页
   ·多 Agent Q 学习工作流程第52页
   ·多路口交通信号控制应用第52-58页
     ·仿真环境设置第52-56页
     ·路口控制 Agent 行为状态及行为瞬时奖赏函数的设计第56-57页
     ·仲裁 Agent 设计实现第57-58页
   ·仿真实验第58-66页
     ·低流量情况仿真第60-61页
     ·中流量情况仿真第61-63页
     ·高流量情况仿真第63-65页
     ·实验分析第65-66页
   ·无锁模式通信实验第66-68页
     ·实验仿真对比第66-68页
     ·实验小结第68页
   ·本章小结第68-69页
第六章 结束语第69-71页
   ·本文总结第69页
   ·问题与展望第69-71页
致谢第71-73页
参考文献第73-77页

论文共77页,点击 下载论文
上一篇:烟条重量采集与控制系统设计
下一篇:星载脉冲管制冷机电控系统设计