首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于性能势的改进平均奖赏强化学习算法研究

摘要第1-5页
ABSTRACT第5-7页
目录第7-9页
CONTENTS第9-11页
第一章 绪论第11-20页
   ·引言第11页
   ·学习方式第11-12页
   ·强化学习发展进程第12-15页
     ·Agent强化学习技术第13-14页
     ·多Agent强化学习算法第14-15页
   ·机器人足球RoboCup第15-18页
     ·RoboCup的实验平台第16-17页
     ·RoboCup的特点与意义第17-18页
   ·本章小结及本文主要内容第18-20页
第二章 强化学习基础理论第20-28页
   ·马尔科夫决策与强化学习第20-24页
     ·马尔科夫决策过程第20-22页
     ·强化学习的四个要素第22-23页
     ·强化学习算法的目的第23-24页
   ·强化学习的主要算法第24-27页
     ·时序差分算法第25-26页
     ·Q-learning算法第26-27页
     ·Sarsa算法第27页
   ·本章小结第27-28页
第三章 平均奖赏强化学习算法第28-41页
   ·MDP与SMDP第28-29页
   ·平均奖赏强化学习算法第29-30页
   ·马尔科夫系统与性能势理论第30-31页
   ·性能势以及基于性能势的无折扣强化学习算法第31-32页
   ·平均奖赏强化学习主要算法第32-36页
     ·R-learning第32-33页
     ·H-learning第33-34页
     ·LC-learning第34-36页
   ·基于G学习的Agent踢球技术的实现第36-40页
     ·问题描述第36-38页
     ·状态划分第38-39页
     ·仿真实验第39-40页
   ·本章小结第40-41页
第四章 分布式多智能体基于G-learning的改进第41-51页
   ·角色与阵型第41-43页
     ·角色第41-42页
     ·阵型第42-43页
   ·RoboCup决策框架结构第43-45页
   ·RoboCup中的协作第45-46页
   ·性能势以及基于性能势的无折扣强化学习算法第46-50页
     ·基于改进的G-learning在RoboCup中的应用第46页
     ·仿真实验第46-50页
   ·本章小结第50-51页
总结与展望第51-53页
参考文献第53-57页
攻读硕士学位期间发表论文第57-59页
致谢第59页

论文共59页,点击 下载论文
上一篇:RFID系统防碰撞与安全协议研究
下一篇:斜导面直线驱动码垛机器人结构设计及动力学性能研究