基于多智能体强化学习的足球机器人决策系统研究与设计

摘要	第4-5页
Abstract	第5-6页
第1章绪论	第9-16页
1.1 课题背景	第9-10页
1.2 课题的研究目的和意义	第10-11页
1.3 国内外研究现状分析	第11-13页
1.4 本文主要研究工作	第13-14页
1.5 本文的结构	第14-16页
第2章多智能体强化学习模型及算法	第16-26页
2.1 强化学习模型	第16-19页
2.1.1 马尔可夫决策模型	第16-18页
2.1.2 回报函数与策略求解	第18-19页
2.2 强化学习主要算法	第19-22页
2.2.1 TD 学习算法	第19-20页
2.2.2 Q 学习算法	第20-22页
2.3 多智能体强化学习	第22-25页
2.3.1 多智能体系统特点	第22-23页
2.3.2 多智能体强化学习方法	第23-25页
2.5 本章小结	第25-26页
第3章基于 Q 学习的足球机器人决策系统	第26-42页
3.1 Q 学习方法调整	第26-30页
3.1.1 基于 CMAC 网络的 Q 学习泛化	第26-28页
3.1.2 基于模拟退火的搜索策略	第28-30页
3.2 基于 MAXQ 分层学习的模型与算法	第30-37页
3.2.1 分层学习结构	第30-31页
3.2.2 MAXQ 分层学习算法优化	第31-37页
3.3 基于 MAXQ 的足球机器人研究	第37-41页
3.3.1 实验平台简介及分析	第37-38页
3.3.2 球员任务划分	第38-40页
3.3.3 球员强化学习过程示例	第40-41页
3.4 本章小结	第41-42页
第4章足球机器人决策系统设计及实验分析	第42-55页
4.1 球队设计	第42-44页
4.1.1 球队模型	第42-43页
4.1.2 动态场区评价模型	第43-44页
4.2 球员协作进攻决策的设计	第44-50页
4.2.1 节点动作模块	第45页
4.2.2 协作动作模块	第45-46页
4.2.3 联合树搜索过程	第46-47页
4.2.4 估值算法	第47-50页
4.3 实验结果分析	第50-54页
4.3.1 学习算法比较	第50-51页
4.3.2 球队比赛分析	第51-54页
4.4 本章小结	第54-55页
结论	第55-57页
参考文献	第57-61页
攻读学位期间发表的学术论文	第61-63页
致谢	第63页