学位论文版权使用授权书 | 第1-5页 |
摘要 | 第5-7页 |
ABSTRACT | 第7-12页 |
第1章 绪论 | 第12-21页 |
·问题的提出 | 第12-18页 |
·MAS的研究现状 | 第12-14页 |
·强化学习的研究现状 | 第14-17页 |
·RoboCup 3D的研究现状 | 第17-18页 |
·研究的意义 | 第18-19页 |
·本文的工作与创新 | 第19-20页 |
·论文的组织结构 | 第20-21页 |
第2章 强化学习 | 第21-43页 |
·简介 | 第21-24页 |
·强化学习的组成部分 | 第21-22页 |
·强化学习的框架 | 第22-24页 |
·Q-学习 | 第24-28页 |
·Q-学习原理 | 第24-26页 |
·Q-学习系统的结构及神经网络实现 | 第26-28页 |
·连续状态空间的强化学习 | 第28-30页 |
·函数逼近器与强化学习 | 第28-29页 |
·函数逼近器的一般在线实现 | 第29-30页 |
·HEDGER强化学习算法改进 | 第30-42页 |
·局部加权回归分析 | 第30-33页 |
·HEDGER算法描述 | 第33-36页 |
·提高LWR的容错性 | 第36-38页 |
·提高LWR的计算效率 | 第38-42页 |
·小结 | 第42-43页 |
第3章 分层强化学习框架 | 第43-47页 |
·原则 | 第43-44页 |
·形式化 | 第44-45页 |
·实例 | 第45-46页 |
·实例1:截球-球员个人技能 | 第45页 |
·实例2:带球-球员复杂个人技能 | 第45-46页 |
·小结 | 第46-47页 |
第4章 ROBOCUP3D仿真服务器平台分析 | 第47-56页 |
·SPADES简介 | 第47-50页 |
·SPADES的结构 | 第48-49页 |
·仿真过程 | 第49-50页 |
·ODE简介 | 第50-52页 |
·刚体的属性 | 第50-51页 |
·力,扭距与冲量 | 第51页 |
·约束 | 第51-52页 |
·AGENT与COMMUNICATION SERVER的通讯 | 第52页 |
·原理 | 第52-55页 |
·过程 | 第52-54页 |
·Agent的输入信息格式 | 第54-55页 |
·Agent的输出信息格式 | 第55页 |
·小结 | 第55-56页 |
第5章 ROBOCUP 3D物理模型分析 | 第56-67页 |
·ROBOCUP 3D源码实现过程 | 第56-61页 |
·刚体所受的力 | 第58页 |
·kick动作的实现 | 第58-60页 |
·drive动作的实现 | 第60页 |
·摩擦力的实现 | 第60-61页 |
·物理模型的实现过程 | 第61页 |
·调用ODE库来近似物理模型 | 第61-65页 |
·刚体位置信息的获得 | 第62-64页 |
·调用ODE库 | 第64-65页 |
·球员世界模型的维护 | 第65-66页 |
·小结 | 第66-67页 |
第6章 3D球队的设计与实现 | 第67-74页 |
·球员的结构 | 第67-69页 |
·球员的动作 | 第69-71页 |
·基本技能 | 第69-71页 |
·高级技能 | 第71页 |
·球员的推理 | 第71-73页 |
·队的行为 | 第72页 |
·状态 | 第72页 |
·目标评价函数 | 第72页 |
·动作选择 | 第72-73页 |
·小结 | 第73-74页 |
第7章 实验结果与分析 | 第74-79页 |
·截球-球员个人技能的实验 | 第74-77页 |
·带球实验 | 第77-79页 |
第8章 工作总结与展望 | 第79-81页 |
参考文献 | 第81-85页 |
致谢 | 第85-86页 |
论文及科研情况 | 第86页 |