基于多Agent强化学习的RoboCup局部策略研究

中文摘要	第1-5页
Abstract	第5-9页
第一章引言	第9-14页
·问题的提出	第9-10页
·国内外研究现状	第10-12页
·主要创新性工作	第12-13页
·内容结构安排	第13-14页
第二章强化学习基础理论及 RoboCup 概述	第14-26页
·强化学习原理	第14-16页
·强化学习模型和马尔可夫决策过程	第14-15页
·强化学习的四个要素	第15-16页
·强化学习的主要算法	第16-21页
·TD 算法	第16-18页
·Q-Learning 算法	第18-19页
·Sarsa 学习算法	第19-20页
·R-Learning 算法	第20-21页
·多 Agent 强化学习	第21-22页
·机器人足球 RoboCup	第22-25页
·仿真机器人足球平台	第23-24页
·仿真 RoboCup 的特点与意义	第24-25页
·本章小结	第25-26页
第三章非累积奖赏强化学习在射门训练的应用研究	第26-35页
·累积立即奖赏值形式	第26-27页
·非累积立即奖赏形式	第27-29页
·非累积立即奖赏强化学习算法和框架	第29-32页
·基于折扣累积回报的 TD 学习、Sarsa 学习和 Q 学习	第29-30页
·基于非累积立即奖赏的 TD 学习、Sarsa 学习和 Q 学习	第30-31页
·包含非累积立即奖赏的强化学习框架	第31-32页
·RoboCup 1 对 1 射门训练实验	第32-34页
·本章小结	第34-35页
第四章基于 Keepaway 应用的改进平均奖赏强化学习	第35-44页
·平均奖赏强化学习	第35-36页
·Keepaway 3 对 2	第36-38页
·改进的平均奖赏强化学习	第38-42页
·改进的平均奖赏值	第38-39页
·BP 神经网络泛化	第39-42页
·实验结果和分析	第42-43页
·本章小结	第43-44页
第五章一种最大集合期望损失的多目标 Sarsa(λ )算法	第44-59页
·多目标强化学习	第44-46页
·多目标问题形式化	第44-45页
·多目标强化学习基础原理	第45-46页
·LRGM-Sarsa( λ )算法	第46-54页
·多目标 LRGM 算法	第46-47页
·单目标改进的 Sarsa( λ )算法	第47-50页
·算法收敛性证明	第50-54页
·实验结果和分析	第54-58页
·Shoot 2 对 2 局部训练	第54-55页
·数据结果及分析	第55-58页
·本章小结	第58-59页
第六章总结与展望	第59-61页
·工作总结	第59-60页
·工作展望	第60-61页
参考文献	第61-66页
攻读硕士期间发表(录用)的论文和参加的科研项目	第66-67页
致谢	第67-68页