机器人足球防御仿真中强化学习方法的研究

摘要	第1-4页
Abstract	第4-7页
引言	第7-9页
1 绪论	第9-14页
·研究背景	第9-12页
·Agent的基本概念和性质	第9-10页
·多Agent系统	第10页
·基于MAS的学习	第10-12页
·RoboCup仿真机器人的研究与发展	第12-14页
·发展过程	第12页
·强化学习在RoboCup中的研究	第12-14页
2 实验平台	第14-20页
·RoboCup仿真环境	第14页
·SoccerServer仿真模型	第14-20页
·场地和球员	第14-15页
·球员的体力模型	第15-16页
·球员的感知信息	第16-18页
·Soccer Keepaway子任务	第18-20页
3 强化学习理论与算法	第20-34页
·概述	第20-21页
·强化学习模型	第21-26页
·马尔可夫决策过程	第21-24页
·学习模型	第24-25页
·行为模型	第25-26页
·强化学习主要算法	第26-34页
·蒙特卡罗算法	第26-27页
·TD(λ)算法	第27-29页
·Q算法	第29-30页
·Sarsa算法	第30-32页
·Policy Gradient	第32-33页
·Actor-Critic	第33-34页
4 Actor-Critic方法在Soccer Keepaway中的应用	第34-44页
·概述	第34页
·马尔可夫模型与参数化的策略	第34-37页
·应用Actor-Critic	第37-44页
·Tile Coding线性函数近似方法	第37-39页
·Actor-Critic方法应用	第39-44页
5 实验结果	第44-48页
·3个防守球员对2个进攻球员各个策略的比较	第44-46页
·4个防守球员对3个进攻球员各个策略的比较	第46-48页
结论	第48-49页
参考文献	第49-51页
攻读硕士学位期间发表学术论文情况	第51-52页
致谢	第52-53页
大连理工大学学位论文版权使用授权书	第53页