首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--机器人技术论文--机器人论文

机器人足球防御仿真中强化学习方法的研究

摘要第1-4页
Abstract第4-7页
引言第7-9页
1 绪论第9-14页
   ·研究背景第9-12页
     ·Agent的基本概念和性质第9-10页
     ·多Agent系统第10页
     ·基于MAS的学习第10-12页
   ·RoboCup仿真机器人的研究与发展第12-14页
     ·发展过程第12页
     ·强化学习在RoboCup中的研究第12-14页
2 实验平台第14-20页
   ·RoboCup仿真环境第14页
   ·SoccerServer仿真模型第14-20页
     ·场地和球员第14-15页
     ·球员的体力模型第15-16页
     ·球员的感知信息第16-18页
   ·Soccer Keepaway子任务第18-20页
3 强化学习理论与算法第20-34页
   ·概述第20-21页
   ·强化学习模型第21-26页
     ·马尔可夫决策过程第21-24页
     ·学习模型第24-25页
     ·行为模型第25-26页
   ·强化学习主要算法第26-34页
     ·蒙特卡罗算法第26-27页
     ·TD(λ)算法第27-29页
     ·Q算法第29-30页
     ·Sarsa算法第30-32页
     ·Policy Gradient第32-33页
     ·Actor-Critic第33-34页
4 Actor-Critic方法在Soccer Keepaway中的应用第34-44页
   ·概述第34页
   ·马尔可夫模型与参数化的策略第34-37页
   ·应用Actor-Critic第37-44页
     ·Tile Coding线性函数近似方法第37-39页
     ·Actor-Critic方法应用第39-44页
5 实验结果第44-48页
   ·3个防守球员对2个进攻球员各个策略的比较第44-46页
   ·4个防守球员对3个进攻球员各个策略的比较第46-48页
结论第48-49页
参考文献第49-51页
攻读硕士学位期间发表学术论文情况第51-52页
致谢第52-53页
大连理工大学学位论文版权使用授权书第53页

论文共53页,点击 下载论文
上一篇:稳定型心绞痛单支血管病变介入治疗与药物治疗对比研究
下一篇:糖皮质激素受体基因BclI多态性与糖尿病相关代谢异常的关系