目录 | 第1-7页 |
摘要 | 第7-8页 |
Abstract | 第8-10页 |
附图索引 | 第10-11页 |
附表索引 | 第11-12页 |
第一章 绪论 | 第12-18页 |
·Multi-agent系统的研究背景 | 第12-15页 |
·强化学习方法的发展现状及趋势 | 第15-16页 |
·本文研究内容 | 第16-18页 |
第二章 Agent的结构与通信协调技术 | 第18-30页 |
·Agent的基本概念 | 第18-19页 |
·Agent的硬件构造 | 第19-20页 |
·Agent的结构及通信 | 第20-27页 |
·Agent的结构 | 第20-24页 |
·Agent通信的类型与方式 | 第24-27页 |
·多Agent的协作、协商与协调技术 | 第27-28页 |
·本章小结 | 第28-30页 |
第三章 基于博弈论框架的强化学习算法 | 第30-43页 |
·Multi-agent系统的Q强化学习算法 | 第30-32页 |
·SGs框架下的Multi-agent系统强化学习算法 | 第32-37页 |
·Minimax-Q强化学习算法 | 第33页 |
·Nash-Q学习算法 | 第33-34页 |
·FF-Q(Friend-or-Foe Q)强化学习算法 | 第34-35页 |
·Correlated Equilibrium-Q强化学习算法 | 第35-36页 |
·Pareto-Q学习算法 | 第36页 |
·MetaQ及AWESOME学习算法 | 第36-37页 |
·总结 | 第37页 |
·Multi-agent系统的冲突消解策略 | 第37-41页 |
·手工编程的冲突消解策略 | 第38-41页 |
·基于强化学习的冲突消解策略 | 第41页 |
·本章小结 | 第41-43页 |
第四章 基于动作过程指导的改进CE-Q算法及其在觅食任务中的应用 | 第43-50页 |
·觅食任务介绍 | 第43-45页 |
·觅食任务描述 | 第43-45页 |
·觅食任务中Agent的行为描述 | 第45页 |
·基于动作过程指导的改进CE-Q算法 | 第45-46页 |
·仿真实验验证 | 第46-49页 |
·仿真实验平台构建 | 第46-47页 |
·仿真实验过程 | 第47-48页 |
·仿真实验结果及分析 | 第48-49页 |
·本章小结 | 第49-50页 |
第五章 基于K-Means聚类算法的强化学习及其在觅食任务中的应用 | 第50-57页 |
·K-Means聚类算法在强化学习中的应用 | 第50-52页 |
·聚类算法简介 | 第50-51页 |
·K-Means聚类算法 | 第51-52页 |
·基于K-Means的觅食任务研究 | 第52-55页 |
·仿真实验与结论 | 第55-56页 |
·仿真实验过程及结果 | 第55-56页 |
·仿真实验分析及结论 | 第56页 |
·本章小结 | 第56-57页 |
结论与展望 | 第57-58页 |
参考文献 | 第58-61页 |
致谢 | 第61-62页 |
附录A | 第62-63页 |
附录B 仿真实验程序 | 第63-74页 |