基于状态预测的协作式多智能体强化学习算法研究

摘要	第1-5页
ABSTRACT	第5-9页
第一章绪论	第9-16页
·研究背景、目的及意义	第9-10页
·国内外研究现状	第10-14页
·抽象方法	第10-12页
·泛化方法	第12-14页
·研究内容	第14-15页
·论文结构	第15-16页
第二章基于状态预测的多智能体强化学习降维	第16-27页
·单智能体强化学习	第16-20页
·单智能体系统特点	第16-17页
·单智能体系统描述	第17-18页
·单智能体系统典型框架和算法分析	第18-20页
·多智能体强化学习	第20-23页
·多智能体系统特点	第21页
·多智能体系统描述	第21-22页
·多智能体系统典型框架和算法分析	第22-23页
·状态预测方法	第23-26页
·维数灾难问题	第24-25页
·基于状态预测的降维	第25-26页
·小结	第26-27页
第三章基于联合状态值函数逼近的多智能体Q学习	第27-39页
·MQVA算法设计与收敛性证明	第27-32页
·MQVA算法设计	第27-30页
·MQVA算法收敛性证明	第30-32页
·MQVA算法实现	第32-33页
·联合状态值函数逼近	第32页
·MQVA算法流程	第32-33页
·仿真实验与分析	第33-38页
·仿真环境的建立	第33-34页
·仿真结果及分析	第34-38页
·小结	第38-39页
第四章基于最优跟踪的多智能体强化学习框架和算法	第39-53页
·OTA算法框架设计	第39-43页
·OTA算法实现	第43-46页
·状态预测机制设计	第43-44页
·动作选择机制设计	第44-46页
·OTA算法流程	第46页
·仿真实验与分析	第46-52页
·仿真环境的建立	第47-48页
·仿真结果及分析	第48-52页
·小结	第52-53页
第五章结论与展望	第53-56页
·结论	第53-54页
·展望	第54-56页
参考文献	第56-62页
致谢	第62-63页
攻读学位期间主要的研究成果	第63页