首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于状态预测的协作式多智能体强化学习算法研究

摘要第1-5页
ABSTRACT第5-9页
第一章 绪论第9-16页
   ·研究背景、目的及意义第9-10页
   ·国内外研究现状第10-14页
     ·抽象方法第10-12页
     ·泛化方法第12-14页
   ·研究内容第14-15页
   ·论文结构第15-16页
第二章 基于状态预测的多智能体强化学习降维第16-27页
   ·单智能体强化学习第16-20页
     ·单智能体系统特点第16-17页
     ·单智能体系统描述第17-18页
     ·单智能体系统典型框架和算法分析第18-20页
   ·多智能体强化学习第20-23页
     ·多智能体系统特点第21页
     ·多智能体系统描述第21-22页
     ·多智能体系统典型框架和算法分析第22-23页
   ·状态预测方法第23-26页
     ·维数灾难问题第24-25页
     ·基于状态预测的降维第25-26页
   ·小结第26-27页
第三章 基于联合状态值函数逼近的多智能体Q学习第27-39页
   ·MQVA算法设计与收敛性证明第27-32页
     ·MQVA算法设计第27-30页
     ·MQVA算法收敛性证明第30-32页
   ·MQVA算法实现第32-33页
     ·联合状态值函数逼近第32页
     ·MQVA算法流程第32-33页
   ·仿真实验与分析第33-38页
     ·仿真环境的建立第33-34页
     ·仿真结果及分析第34-38页
   ·小结第38-39页
第四章 基于最优跟踪的多智能体强化学习框架和算法第39-53页
   ·OTA算法框架设计第39-43页
   ·OTA算法实现第43-46页
     ·状态预测机制设计第43-44页
     ·动作选择机制设计第44-46页
     ·OTA算法流程第46页
   ·仿真实验与分析第46-52页
     ·仿真环境的建立第47-48页
     ·仿真结果及分析第48-52页
   ·小结第52-53页
第五章 结论与展望第53-56页
   ·结论第53-54页
   ·展望第54-56页
参考文献第56-62页
致谢第62-63页
攻读学位期间主要的研究成果第63页

论文共63页,点击 下载论文
上一篇:基于BMI方法的不确定性离散时滞系统的鲁棒保性能控制
下一篇:重置控制系统分析及其在球杆系统中的应用