基于RoboCup多智能体系统学习与协作问题的研究

摘要	第1-4页
Abstract	第4-8页
第一章绪论	第8-16页
·引言	第8页
·智能Agent	第8-10页
·Agent与环境	第8-9页
·Agent属性	第9页
·Agent结构分类	第9-10页
·多Agent系统及其研究内容	第10-12页
·RoboCup的研究概况	第12-14页
·RoboCup背景及意义	第12-13页
·RoboCup比赛及仿真环境	第13-14页
·国内外的研究概况	第14页
·论文的主要工作	第14-16页
第二章 RoboCup中的学习技术	第16-26页
·BP神经网络理论	第16-18页
·BP神经网络结构	第16-17页
·BP算法基本原理	第17页
·BP算法的工作原理	第17-18页
·遗传算法	第18-20页
·遗传算法的基本要素	第18-19页
·遗传算法的工作原理	第19-20页
·强化学习	第20-23页
·强化学习原理	第20-21页
·马尔可夫决策过程(Markov Decision Process)模型	第21-22页
·强化学习中的几个关键概念	第22-23页
·Q学习	第23-25页
·Q学习原理	第24页
·Q学习的基本算法	第24-25页
·本章小结	第25-26页
第三章基于层结构的Agent框架研究	第26-36页
·AFU2007的结构设计	第26-30页
·Agent的结构设计需求	第26页
·Agent层结构设计框架	第26-28页
·AFU2007层结构的模块化实现	第28-29页
·协调和紧急处理模块的实现	第29-30页
·基于分层学习的Agent决策框架	第30-32页
·决策框架的提出	第30-31页
·决策框架的结构	第31-32页
·自底向上的学习过程	第32-34页
·基本技术的学习	第32-33页
·个体策略的学习	第33-34页
·球队策略的学习	第34页
·自顶向下的决策过程	第34页
·学习决策框架中存在的问题	第34-35页
·本章小结	第35-36页
第四章 Agent个体技术的实现研究	第36-50页
·截球(interceptive)技术的BP_GA算法	第36-45页
·问题描述	第36-37页
·二分法求解	第37-39页
·截球(interceptive)的BP_GA算法求解	第39-43页
·BP_GA算法与纯BP算法的对比实验	第43-44页
·DP_GA算法与二分法求解的对比	第44-45页
·踢球(Kick)的Q学习	第45-49页
·问题描述	第45页
·踢球(kick)技术的Q学习实现	第45-48页
·实验与评价	第48-49页
·本章小结	第49-50页
第五章 Agent群体协作的Q学习研究	第50-62页
·多AgentQ学习	第50-55页
·基于Markov对策框架的多Agent强化学习框架	第50-51页
·基于统计的多Agent Q学习思想	第51页
·多Agent Q学习算法	第51-52页
·算法收敛性证明	第52-55页
·学习算法在RoboCup进攻决策中的应用	第55-61页
·问题引入	第55-56页
·Agnet团队进攻策略的强化学习	第56-57页
·进攻决策的Q学习模型	第57-60页
·实验与讨论	第60-61页
·本章小结	第61-62页
第六章结束语	第62-63页
·本文工作总结	第62页
·下一步的工作	第62-63页
致谢	第63-64页
参考文献	第64-67页
附录:作者在攻读硕士学位期间发表的论文	第67页