| 摘要 | 第1-4页 |
| Abstract | 第4-7页 |
| 引言 | 第7-9页 |
| 1 绪论 | 第9-14页 |
| ·研究背景 | 第9-12页 |
| ·Agent的基本概念和性质 | 第9-10页 |
| ·多Agent系统 | 第10页 |
| ·基于MAS的学习 | 第10-12页 |
| ·RoboCup仿真机器人的研究与发展 | 第12-14页 |
| ·发展过程 | 第12页 |
| ·强化学习在RoboCup中的研究 | 第12-14页 |
| 2 实验平台 | 第14-20页 |
| ·RoboCup仿真环境 | 第14页 |
| ·SoccerServer仿真模型 | 第14-20页 |
| ·场地和球员 | 第14-15页 |
| ·球员的体力模型 | 第15-16页 |
| ·球员的感知信息 | 第16-18页 |
| ·Soccer Keepaway子任务 | 第18-20页 |
| 3 强化学习理论与算法 | 第20-34页 |
| ·概述 | 第20-21页 |
| ·强化学习模型 | 第21-26页 |
| ·马尔可夫决策过程 | 第21-24页 |
| ·学习模型 | 第24-25页 |
| ·行为模型 | 第25-26页 |
| ·强化学习主要算法 | 第26-34页 |
| ·蒙特卡罗算法 | 第26-27页 |
| ·TD(λ)算法 | 第27-29页 |
| ·Q算法 | 第29-30页 |
| ·Sarsa算法 | 第30-32页 |
| ·Policy Gradient | 第32-33页 |
| ·Actor-Critic | 第33-34页 |
| 4 Actor-Critic方法在Soccer Keepaway中的应用 | 第34-44页 |
| ·概述 | 第34页 |
| ·马尔可夫模型与参数化的策略 | 第34-37页 |
| ·应用Actor-Critic | 第37-44页 |
| ·Tile Coding线性函数近似方法 | 第37-39页 |
| ·Actor-Critic方法应用 | 第39-44页 |
| 5 实验结果 | 第44-48页 |
| ·3个防守球员对2个进攻球员各个策略的比较 | 第44-46页 |
| ·4个防守球员对3个进攻球员各个策略的比较 | 第46-48页 |
| 结论 | 第48-49页 |
| 参考文献 | 第49-51页 |
| 攻读硕士学位期间发表学术论文情况 | 第51-52页 |
| 致谢 | 第52-53页 |
| 大连理工大学学位论文版权使用授权书 | 第53页 |