首页--经济论文--经济计划与管理论文--经济计算、经济数学方法论文--经济数学方法论文--运筹学在经济中的应用论文--博弈论论文

多Agent协同的强化学习方法研究

摘要第1-8页
Abstract第8-9页
第一章 绪论第9-19页
   ·引言第9-11页
   ·Agent与多Agent系统第11-13页
     ·Agent的基本概念和性质第11-12页
     ·多Agent系统第12-13页
   ·多Agent系统的学习第13-17页
     ·多Agent学习研究的目的和意义第13-14页
     ·国内外研究现状与多Agent学习的研究内容第14-17页
   ·本文的研究内容与结构第17-19页
第二章 多Agent强化学习的研究基础第19-38页
   ·强化学习概述第19-24页
     ·强化学习模型第20-21页
     ·优化行为模型第21-22页
     ·马尔可夫决策过程第22-24页
   ·强化学习的几种常用算法第24-28页
     ·TD算法第25-26页
     ·Q学习第26-28页
     ·Dyna算法第28页
   ·强化学习研究中的常见问题及强化学习算法的应用第28-30页
     ·研究中常见的困难第28-30页
     ·强化学习算法的应用第30页
   ·多Agent强化学习综述第30-34页
     ·多Agent强化学习简介第31-33页
     ·马尔可夫博弈第33-34页
   ·与本文相关的研究工作第34-37页
   ·本章小结第37-38页
第三章 基于目标分解的多Agent协同强化学习第38-46页
   ·Pursuit Game的相关研究第38-39页
   ·Pursuit Game问题的描述第39-40页
   ·基于目标分解的多Agent协同强化学习算法第40-43页
   ·实验设计与实验结果第43-45页
   ·本章小结第45-46页
第四章 多Agent最优行为策略学习第46-58页
   ·问题的提出第46-47页
   ·BASL方法的基本思路第47-50页
   ·Pursuit Game的BASL算法第50-55页
     ·状态的表示第50-52页
     ·伪回报的确定第52页
     ·行为选择第52页
     ·Q值更新第52-53页
     ·Pursuit Game的BASL算法第53-55页
   ·算法的实现与实验结果第55-57页
   ·本章小结第57-58页
第五章 多Agent协同博弈的强化学习方法初探第58-75页
   ·基本思想第58-60页
   ·相关概念和假设第60-67页
   ·算法的提出第67-69页
   ·算法的收敛性证明第69-74页
   ·本章小结第74-75页
第六章 总结和讨论第75-77页
   ·本文总结第75-76页
   ·今后的研究方向第76-77页
参考文献第77-81页
致谢第81-82页
附录第82页

论文共82页,点击 下载论文
上一篇:非银行金融机构风险处置问题研究
下一篇:我国银行与证券业税制改革研究