强化学习在仿真足球机器人决策中的应用研究

摘要	第1-6页
ABSTRACT	第6-10页
第一章绪论	第10-15页
·研究背景	第10-12页
·FIRA 简介	第11-12页
·RoboCup 简介	第12页
·研究的目的与意义	第12-13页
·本文研究的主要内容	第13-15页
第二章 MSRS 11vs11 足球机器人仿真比赛平台	第15-26页
·机器人足球系统简介	第15-18页
·机器人本体子系统	第16-17页
·视觉子系统	第17页
·决策子系统	第17页
·无线通讯子系统	第17-18页
·足球机器人仿真平台	第18-22页
·MSRS 11vs11 仿真平台简介	第18-19页
·MSRS 仿真平台的结构	第19页
·MSRS 仿真平台模式	第19-22页
·比赛场地环境	第22页
·MSRS 11vs11 比赛规则介绍	第22-26页
·比赛时间	第22-23页
·比赛次序	第23页
·记分方法	第23-24页
·点球判罚	第24页
·门球判罚	第24-25页
·争球判罚	第25-26页
第三章强化学习	第26-34页
·强化学习的基本原理和模型	第26-28页
·基本原理	第26-27页
·强化学习模型	第27-28页
·马尔可夫决策过程（MDP）	第28页
·强化学习的发展及研究现状	第28-29页
·Sarsa 学习算法	第29-30页
·Sarsa 学习算法简介	第29-30页
·Sarsa 学习算法的实现	第30页
·强化学习的其它典型算法	第30-33页
·瞬时差分算法TD（Temporal Difference Algorithm）	第30-31页
·Q-学习算法	第31-32页
·R-学习算法	第32-33页
·强化学习的主要应用	第33页
·本章小结	第33-34页
第四章基于强化学习的比赛策略的应用研究	第34-50页
·仿真足球机器人赛场环境的离散化	第34-38页
·仿真环境描述	第34-35页
·仿真环境的离散化	第35-38页
·动作函数的设计	第38-42页
·足球机器人的运动学模型	第39-40页
·到点动作设计	第40-41页
·转向目标点动作设计	第41页
·射门动作设计	第41-42页
·奖赏函数的设计	第42页
·Q 值的初始化和更新	第42页
·Sarsa 学习在比赛决策中的应用	第42-44页
·其它射门算法	第44-47页
·切入圆射门算法	第44-45页
·动态基准圆射门算法	第45-47页
·仿真实验及结果分析	第47-50页
·仿真实验结果和分析	第47-49页
·本算法与其它算法的比较	第49-50页
第五章结论与展望	第50-51页
参考文献	第51-54页
致谢	第54-55页
附录:(攻读硕士学位期间发表论文目录)	第55-56页
摘要	第56-59页
Abstract	第59-61页