首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

并行强化学习研究

中文摘要第1-5页
Abstract第5-9页
第一章 引言第9-16页
   ·研究背景及意义第9-12页
   ·国内外研究现状第12-14页
   ·主要工作第14-15页
   ·论文组织结构第15-16页
第二章 强化学习理论及算法第16-27页
   ·强化学习简介第16-17页
   ·强化学习的基本原理第17页
   ·强化学习系统的关键要素第17-20页
   ·强化学习问题的建模第20-21页
   ·强化学习算法第21-25页
     ·强化学习算法的分类第21-22页
     ·强化学习算法效率的度量指标第22-23页
     ·几种常用的强化学习算法第23-25页
   ·并行强化学习第25-26页
   ·本章小结第26-27页
第三章 基于状态空间分解和智能调度的并行强化学习第27-49页
   ·IS-SRL和IS-SPRL方法第27-37页
     ·子问题的学习过程第27-30页
     ·IS-SPRL方法的消息传递和调度第30-32页
     ·学习步骤第32-33页
     ·加权优先级调度算法第33-37页
   ·收敛性分析第37-41页
     ·模型和假设第38-39页
     ·基于IS-SRL和IS-SPRL方法的Q学习算法的收敛性第39-41页
   ·实验第41-47页
     ·实验3.1:不同调度算法的比较第42-43页
     ·实验3.2:算法在不同参数下的性能比较第43-44页
     ·实验3.3:不同算法的收敛速度的比较第44-46页
     ·结果分析第46-47页
   ·本章小结第47-49页
第四章 基于资格迹的并行时间信度分配强化学习算法第49-59页
   ·资格迹与强化学习第50-52页
   ·并行时间信度分配第52-54页
   ·性能优化与系统容错第54-55页
     ·状态迁移预测第54-55页
     ·故障预防和恢复第55页
   ·实验第55-58页
   ·本章小结第58-59页
第五章 基于并行采样和学习经验复用的E.算法第59-71页
   ·E~3算法第60-62页
   ·学习经验复用第62-63页
   ·并行E~3算法第63-66页
   ·系统容错第66页
   ·实验第66-70页
   ·本章小结第70-71页
第六章 总结与展望第71-73页
   ·工作总结第71-72页
   ·工作展望第72-73页
参考文献第73-78页
攻读硕士期间发表(录用)的论文和参与的科研项目第78-80页
致谢第80页

论文共80页,点击 下载论文
上一篇:基于TileCoding的函数逼近强化学习研究
下一篇:智能汽车道闸控制系统的研发