首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于多智能体间协作模型及其学习方法研究

摘要第1-5页
Abstract第5-8页
1 绪论第8-15页
   ·研究的必要性和背景第8-9页
   ·强化学习概述第9-11页
   ·追捕问题描述第11-14页
     ·追捕问题的发展背景第11-12页
     ·追捕问题概述第12-13页
     ·分析追捕问题存在的问题第13-14页
   ·论文研究内容及结构安排第14-15页
     ·研究内容第14页
     ·结构安排第14-15页
2 多AGENT系统第15-19页
   ·AGENT介绍第15-16页
     ·Agent的定义第15页
     ·Agent的基本特性第15-16页
   ·多Agent系统概述第16-17页
     ·多Agent系统的定义及特性第16页
     ·多Agent学习的研究内容第16-17页
     ·多Agent协作机制第17页
   ·本章小结第17-19页
3 多AGENT强化学习理论第19-32页
   ·强化学习第19-28页
     ·强化学习的基本原理和定义第19-21页
     ·马尔可夫决策过程第21-22页
     ·强化学习的基本要素第22-24页
     ·经典的强化学习算法第24-28页
     ·有待进一步研究的问题第28页
   ·多AGENT强化学习第28-31页
     ·MARL方法及其发展第28-29页
     ·合作MARL第29页
     ·基于对策或平衡解的MARL第29-30页
     ·最佳响应MARL第30-31页
     ·MARL有待进一步解决的问题第31页
   ·本章小结第31-32页
4 改进的多AGENT协作学习方法第32-40页
   ·多AGENT的信息共享机制第32-33页
     ·信息共享机制第32-33页
     ·实例分析第33页
   ·黑板模型第33-34页
   ·对手状态预测第34-36页
     ·PA-BDI-AGENT预测技术第34-35页
     ·对手状态预测函数第35-36页
   ·改进的多AGENT协作学习算法第36-39页
     ·算法框架第36页
     ·算法描述第36-37页
     ·算法说明第37-39页
   ·本章小结第39-40页
5 捕追问题研究第40-46页
   ·任务描述第40页
   ·追捕流程图第40-41页
   ·算法设计第41-44页
     ·分解目标及确定子目标第41-42页
     ·状态聚类第42-43页
     ·设定奖赏值第43页
     ·更新Q值第43-44页
   ·实验结果及其分析第44-45页
   ·本章小结第45-46页
结论第46-47页
致谢第47-48页
参考文献第48-50页
攻读学位期间的研究成果第50页

论文共50页,点击 下载论文
上一篇:基于QGA优化的BP神经网络在电力电子电路故障诊断中的应用研究
下一篇:分段线性弹性碰撞系统分岔与混沌控制