摘要 | 第5-6页 |
Abstract | 第6页 |
第1章 绪论 | 第11-18页 |
1.1 增强学习的历史与发展 | 第12-13页 |
1.2 机器人足球比赛的起源及发展 | 第13-15页 |
1.2.1 FIRA简介 | 第13-14页 |
1.2.2 RoboCup的发展 | 第14-15页 |
1.3 机器人足球仿真的研究现状 | 第15-16页 |
1.4 机器人足球研究的目的与意义 | 第16-17页 |
1.5 本文研究的主要内容 | 第17-18页 |
第2章 增强学习模型算法研究 | 第18-26页 |
2.1 增强学习的基本原理和模型 | 第18-21页 |
2.1.1 基本原理 | 第18页 |
2.1.2 增强学习模型 | 第18-21页 |
2.1.3 马尔科夫决策进程(MDPs) | 第21页 |
2.2 增强学习的几种经典算法 | 第21-24页 |
2.2.1 瞬时差分学习TD | 第21-22页 |
2.2.2 Q-Learning算法 | 第22-23页 |
2.2.3 SARSA学习算法 | 第23页 |
2.2.4 一种改进的SARSA学习算法 | 第23-24页 |
2.3 增强学习的主要应用 | 第24-25页 |
2.4 本章小结 | 第25-26页 |
第3章 MSRS 11vs11足球机器人比赛平台 | 第26-32页 |
3.1 机器人足球系统简介 | 第26-27页 |
3.1.1 足球机器人子系统 | 第27页 |
3.1.2 视觉子系统 | 第27页 |
3.1.3 决策子系统 | 第27页 |
3.1.4 无线通讯子系统 | 第27页 |
3.2 足球机器人仿真平台 | 第27-31页 |
3.2.1 MSRS仿真平台简介 | 第28页 |
3.2.2 MSRS仿真平台的结构 | 第28-29页 |
3.2.3 MSRS仿真平台模式 | 第29-30页 |
3.2.4 比赛场地环境 | 第30-31页 |
3.3 本章小结 | 第31-32页 |
第4章 改进SARSA学习算法在智能体中的应用研究 | 第32-50页 |
4.1 改进SARSA学习算法在单智能体对抗中的应用 | 第32-43页 |
4.1.1 仿真环境的离散化及基本动作设置 | 第32-34页 |
4.1.2 基于混合贪婪算法的Q值更新及动作选择 | 第34-36页 |
4.1.3 改进SARSA学习算法的奖赏函数的设置 | 第36页 |
4.1.4 仿真实验数据分析 | 第36-43页 |
4.2 改进SARSA学习算法在多智能体中的应用 | 第43-49页 |
4.2.1 任务描述 | 第43-44页 |
4.2.2 多智能体基本动作设计 | 第44-46页 |
4.2.3 智能体角色及其动态调整 | 第46-47页 |
4.2.4 奖赏函数的设定 | 第47页 |
4.2.5 仿真实验数据分析 | 第47-49页 |
4.3 本章小结 | 第49-50页 |
结论 | 第50-53页 |
参考文献 | 第53-57页 |
致谢 | 第57页 |