机器人足球行为控制学习算法的研究

摘要	第3-4页
ABSTRACT	第4-5页
第一章绪论	第8-12页
1.1 课题研究背景和意义	第8-9页
1.2 课题研究现状和发展趋势	第9-11页
1.3 课题研究内容	第11-12页
第二章 ROBOCUP中型足球机器人系统概述	第12-17页
2.1 中型组足球机器人的系统组成	第12-13页
2.2 中型组足球机器人的决策过程	第13-14页
2.2.1 多Agent全局决策过程	第13-14页
2.2.2 单机器人的运动决策过程	第14页
2.3 中型组足球机器人的运动控制	第14-16页
2.4 本章总结	第16-17页
第三章强化学习理论和算法	第17-28页
3.1 强化学习概述	第17-18页
3.2 MARKOV决策过程	第18-21页
3.2.1 Markov链	第18-19页
3.2.2 Markov决策	第19-21页
3.3 TD(λ)学习算法	第21-22页
3.4 Q学习算法	第22-23页
3.5 函数逼近法	第23-27页
3.5.1 多层前馈神经网络	第24-26页
3.5.2 基于人工神经网络的强化学习算法	第26-27页
3.6 本章总结	第27-28页
第四章强化学习在足球机器人行为控制中的应用	第28-46页
4.1 足球机器人截球模型	第28-29页
4.2 CMAC结构	第29-32页
4.3 基于CMAC的直接梯度强化学习算法	第32-33页
4.4 基于CMAC的强化学习在机器人截球上的实现	第33-35页
4.5 基于CMAC强化学习算法的改进	第35-41页
4.5.1 改进连续CMAC模型	第35-39页
4.5.2 基于连续CMAC的强化学习在机器人截球上的实现	第39-41页
4.6 机器人躲避动态障碍模型	第41-42页
4.7 基于并行连续CMAC的强化学习在机器人躲避动态障碍的实现	第42-45页
4.8 本章总结	第45-46页
第五章基于强化学习的PID控制在目标趋近中的应用	第46-55页
5.1 足球机器人目标趋近模型	第46-48页
5.2 ACTOR-CRITIC算法原理	第48-50页
5.3 基于ACTOR-CRITIC学习的PID算法	第50-51页
5.4 基于ACTOR-CRITIC的PID算法在机器人目标趋近上的实现	第51-54页
5.5 本章总结	第54-55页
第六章结论与展望	第55-56页
6.1 主要结论	第55页
6.2 研究展望	第55-56页
参考文献	第56-59页
附录A	第59-66页
附录B	第66-74页
附录C	第74-78页
在学期间的研究成果	第78-79页
致谢	第79页