联合博弈框架下的多Agent强化学习算法研究

摘要	第1-4页
ABSTRACT	第4-8页
第一章绪论	第8-12页
·研究目的及意义	第8-9页
·协商框架研究现状	第9页
·强化学习研究现状	第9-10页
·论文研究的主要内容及创新点	第10-11页
·论文整体结构	第11-12页
第二章相关理论研究	第12-24页
·强化学习理论研究	第12-14页
·多Agent 强化学习基本理论	第14-16页
·多Agent 强化学习基本模型	第14-15页
·多Agent 学习系统的组成要素	第15-16页
·多AGENT 强化学习的主要算法	第16-20页
·动态规划方法	第16-17页
·时间差分算法	第17页
·Q 学习算法	第17-20页
·基于角色跟踪的强化学习算法	第20页
·强化学习算法分析	第20-22页
·学习率α对强化学习算法的影响	第20-21页
·学习策略对强化学习算法的影响	第21-22页
·本章小结	第22-24页
第三章多Agent 协商模型框架	第24-38页
·理论基础	第24页
·双边多议题自治协商模型	第24-29页
·BNM 的形式化描述	第24-25页
·效用评价机制-K	第25页
·学习机制—L	第25-26页
·提议策略-S	第26-29页
·协商模型优化设计	第29-34页
·协商协议	第29-31页
·僵局消解过程算法设计	第31-32页
·基于Q 学习的僵局消解设计	第32-34页
·算法分析	第34-37页
·实验场景描述	第35页
·可收敛性	第35-36页
·有效性	第36-37页
·本章小结	第37-38页
第四章基于联合博弈的多Agent 强化学习	第38-50页
·多AGENT 协作学习的联合博弈框架	第38-43页
·基本概念	第38-40页
·基于联合博弈的多Agent 强化学习算法	第40-42页
·算法实现	第42-43页
·调度问题的描述	第43-49页
·任务调度问题的研究现状分析	第44-45页
·协同设计任务调度问题描述	第45-46页
·应用实例与分析	第46-49页
·本章小结	第49-50页
第五章总结与展望	第50-52页
·论文总结	第50页
·进一步工作	第50-52页
参考文献	第52-56页
致谢	第56-57页
攻读学位期间发表的学术论文目录	第57-58页