摘要 | 第1-4页 |
Abstract | 第4-7页 |
引言 | 第7-9页 |
1 绪论 | 第9-14页 |
·研究背景 | 第9-12页 |
·Agent的基本概念和性质 | 第9-10页 |
·多Agent系统 | 第10页 |
·基于MAS的学习 | 第10-12页 |
·RoboCup仿真机器人的研究与发展 | 第12-14页 |
·发展过程 | 第12页 |
·强化学习在RoboCup中的研究 | 第12-14页 |
2 实验平台 | 第14-20页 |
·RoboCup仿真环境 | 第14页 |
·SoccerServer仿真模型 | 第14-20页 |
·场地和球员 | 第14-15页 |
·球员的体力模型 | 第15-16页 |
·球员的感知信息 | 第16-18页 |
·Soccer Keepaway子任务 | 第18-20页 |
3 强化学习理论与算法 | 第20-34页 |
·概述 | 第20-21页 |
·强化学习模型 | 第21-26页 |
·马尔可夫决策过程 | 第21-24页 |
·学习模型 | 第24-25页 |
·行为模型 | 第25-26页 |
·强化学习主要算法 | 第26-34页 |
·蒙特卡罗算法 | 第26-27页 |
·TD(λ)算法 | 第27-29页 |
·Q算法 | 第29-30页 |
·Sarsa算法 | 第30-32页 |
·Policy Gradient | 第32-33页 |
·Actor-Critic | 第33-34页 |
4 Actor-Critic方法在Soccer Keepaway中的应用 | 第34-44页 |
·概述 | 第34页 |
·马尔可夫模型与参数化的策略 | 第34-37页 |
·应用Actor-Critic | 第37-44页 |
·Tile Coding线性函数近似方法 | 第37-39页 |
·Actor-Critic方法应用 | 第39-44页 |
5 实验结果 | 第44-48页 |
·3个防守球员对2个进攻球员各个策略的比较 | 第44-46页 |
·4个防守球员对3个进攻球员各个策略的比较 | 第46-48页 |
结论 | 第48-49页 |
参考文献 | 第49-51页 |
攻读硕士学位期间发表学术论文情况 | 第51-52页 |
致谢 | 第52-53页 |
大连理工大学学位论文版权使用授权书 | 第53页 |