首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于多Agent强化学习的RoboCup局部策略研究

中文摘要第1-5页
Abstract第5-9页
第一章 引言第9-14页
   ·问题的提出第9-10页
   ·国内外研究现状第10-12页
   ·主要创新性工作第12-13页
   ·内容结构安排第13-14页
第二章 强化学习基础理论及 RoboCup 概述第14-26页
   ·强化学习原理第14-16页
     ·强化学习模型和马尔可夫决策过程第14-15页
     ·强化学习的四个要素第15-16页
   ·强化学习的主要算法第16-21页
     ·TD 算法第16-18页
     ·Q-Learning 算法第18-19页
     ·Sarsa 学习算法第19-20页
     ·R-Learning 算法第20-21页
   ·多 Agent 强化学习第21-22页
   ·机器人足球 RoboCup第22-25页
     ·仿真机器人足球平台第23-24页
     ·仿真 RoboCup 的特点与意义第24-25页
   ·本章小结第25-26页
第三章 非累积奖赏强化学习在射门训练的应用研究第26-35页
   ·累积立即奖赏值形式第26-27页
   ·非累积立即奖赏形式第27-29页
   ·非累积立即奖赏强化学习算法和框架第29-32页
     ·基于折扣累积回报的 TD 学习、Sarsa 学习和 Q 学习第29-30页
     ·基于非累积立即奖赏的 TD 学习、Sarsa 学习和 Q 学习第30-31页
     ·包含非累积立即奖赏的强化学习框架第31-32页
   ·RoboCup 1 对 1 射门训练实验第32-34页
   ·本章小结第34-35页
第四章 基于 Keepaway 应用的改进平均奖赏强化学习第35-44页
   ·平均奖赏强化学习第35-36页
   ·Keepaway 3 对 2第36-38页
   ·改进的平均奖赏强化学习第38-42页
     ·改进的平均奖赏值第38-39页
     ·BP 神经网络泛化第39-42页
   ·实验结果和分析第42-43页
   ·本章小结第43-44页
第五章 一种最大集合期望损失的多目标 Sarsa(λ )算法第44-59页
   ·多目标强化学习第44-46页
     ·多目标问题形式化第44-45页
     ·多目标强化学习基础原理第45-46页
   ·LRGM-Sarsa( λ )算法第46-54页
     ·多目标 LRGM 算法第46-47页
     ·单目标改进的 Sarsa( λ )算法第47-50页
     ·算法收敛性证明第50-54页
   ·实验结果和分析第54-58页
     ·Shoot 2 对 2 局部训练第54-55页
     ·数据结果及分析第55-58页
   ·本章小结第58-59页
第六章 总结与展望第59-61页
   ·工作总结第59-60页
   ·工作展望第60-61页
参考文献第61-66页
攻读硕士期间发表(录用)的论文和参加的科研项目第66-67页
致谢第67-68页

论文共68页,点击 下载论文
上一篇:基于3G的可配置测控系统的设计与应用
下一篇:基于功能核酸的传感器研究