首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

连续时间分层强化学习算法

摘要第1-6页
ABSTRACT第6-8页
致谢第8-13页
第一章 绪论第13-24页
   ·强化学习第13-16页
     ·强化学习概述第13-14页
     ·常见强化学习算法第14-16页
   ·分层强化学习第16-20页
     ·分层强化学习概述第16-18页
     ·常见分层强化学习算法第18-20页
   ·多Agent 系统第20-23页
     ·多Agent 系统研究现状第20-22页
     ·多Agent 系统研究内容第22-23页
   ·论文组织结构第23-24页
第二章 基本的数学模型和优化算法第24-33页
   ·Markov 决策过程和半Markov 决策过程第24-27页
     ·Markov 决策过程第24-25页
     ·半Markov 决策过程第25-26页
     ·多Agent 半Markov 决策过程第26-27页
   ·Q 学习优化算法第27-30页
     ·Q 学习原理第27-28页
     ·基于性能势的Q 学习算法第28-30页
   ·Option 优化算法第30-32页
     ·Option 算法原理第30-31页
     ·Option 算法第31-32页
   ·本章小结第32-33页
第三章 基于连续时间半马尔可夫决策过程的Option 算法第33-50页
   ·连续时间SMDP 数学模型第33-34页
   ·连续时间模拟退火统一Q 学习第34-37页
     ·模拟退火算法第34-35页
     ·连续时间模拟退火统一Q 学习优化算法第35-37页
   ·连续时间Option 算法第37-41页
   ·实验仿真第41-49页
     ·仿真模型第41-43页
     ·SA-Option 算法模型建立第43页
     ·SA-Q 算法模型建立第43-44页
     ·实验结果第44-49页
   ·本章小结第49-50页
第四章 多 Agent 系统连续时间 Option 算法第50-63页
   ·MSMDP 数学模型描述第50-51页
   ·多 Agent 连续时间 Option 学习优化算法第51-56页
     ·连续时间 CMSA-Option 优化算法第51-54页
     ·连续时间 JMSA-Option 优化算法第54-56页
   ·实验仿真第56-62页
     ·仿真模型第56-57页
     ·CMSA-Option 算法模型建立第57-58页
     ·JMSA-Option 算法模型建立第58-59页
     ·实验结果第59-62页
   ·本章小结第62-63页
第五章 总结第63-64页
参考文献第64-68页
攻读硕士学位期间主要科研工作和成果第68-69页

论文共69页,点击 下载论文
上一篇:基于模糊控制的规则化描述方法研究
下一篇:粗糙集与灰色关联理论在案例检索中的应用研究