摘要 | 第1-8页 |
Abstract | 第8-10页 |
第一章 绪论 | 第10-24页 |
·研究背景 | 第10-13页 |
·多Agent 学习概述 | 第13-17页 |
·Agent 与多Agent 系统 | 第13-15页 |
·多Agent 学习的研究内容 | 第15-17页 |
·多Agent 强化学习的研究现状和未来研究方向 | 第17-22页 |
·本文的研究内容与结构 | 第22-24页 |
·本文的研究内容 | 第22-23页 |
·本文的结构 | 第23-24页 |
第二章 相关的研究工作 | 第24-44页 |
·强化学习简介 | 第24-33页 |
·强化学习模型 | 第24-26页 |
·优化行为模型 | 第26-27页 |
·马尔可夫决策过程 | 第27-30页 |
·Q-学习算法 | 第30-33页 |
·多Agent 强化学习基本理论 | 第33-41页 |
·随机博弈框架简介 | 第35-39页 |
·相关算法 | 第39-41页 |
·与本文相关的研究工作 | 第41-43页 |
·本章小结 | 第43-44页 |
第三章 基于承诺和约定的多 Agent 协同强化学习 | 第44-60页 |
·预备知识 | 第45-50页 |
·多Agent 协作团队 | 第45-47页 |
·任务的分解与分配 | 第47-48页 |
·承诺和约定 | 第48-50页 |
·状态行为空间的缩减 | 第50-51页 |
·Pursuit Game 问题 | 第51-53页 |
·Pursuit Game 问题的相关研究 | 第51-52页 |
·Pursuit Game 的问题描述 | 第52-53页 |
·基于承诺和约定的多Agent 协同强化学习算法 | 第53-56页 |
·算法设计及实验结果 | 第56-59页 |
·算法设计 | 第56-57页 |
·实验及结论 | 第57-59页 |
·本章小结 | 第59-60页 |
第四章 基于联合行为优先序列的多 Agent 协同强化学习 | 第60-77页 |
·多Agent 协同强化学习的团队随机博弈框架 | 第60-64页 |
·基本概念 | 第60-61页 |
·团队随机博弈框架 | 第61-64页 |
·对接问题描述 | 第64-67页 |
·多最优均衡解问题 | 第67-70页 |
·多最优均衡解问题的研究现状 | 第67页 |
·基于联合行为优先序列的多最优均衡问题解决方法 | 第67-70页 |
·基于联合行为优先序列的多Agent 协同强化学习算法 | 第70-71页 |
·对接问题的实验设定及结果 | 第71-73页 |
·Pursuit Game 问题的实验设定及结果 | 第73-76页 |
·本章小结 | 第76-77页 |
第五章 总结与展望 | 第77-79页 |
·主要工作与创新 | 第77-78页 |
·进一步的工作 | 第78-79页 |
致谢 | 第79-80页 |
参考文献 | 第80-89页 |
附录 | 第89页 |