首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

折扣和平均准则下SMDP基于性能势的统一强化学习算法

前言第1-17页
第一章 半马尔可夫决策过程概述第17-24页
 1.1 半马尔可夫决策过程第17-21页
  1.1.1 SMDP数学模型第17-18页
  1.1.2 SMDP等价无穷小生成子第18-20页
  1.1.3 优化目标第20-21页
 1.2 SMDP性能势以及Bellman最优性方程第21-22页
  1.2.1 SMDP性能势第21页
  1.2.2 SMDP基于性能势的最优性方程和最优性定理第21-22页
 1.3 SMDP α-一致化链第22-24页
第二章 SMDP基于性能势TD(λ)学习的统一NDP优化第24-38页
 2.1 TD(λ)学习和神经元动态规划第24-28页
  2.1.1 TD(λ)学习第24-27页
  2.1.2 神经元动态规划第27-28页
 2.2 基于 TD(λ)的性能势学习以及参数学习公式第28-30页
  2.2.1 SMDP α-一致化链的性能势第28-29页
  2.2.2 基于TD(λ)的性能势学习第29-30页
  2.2.3 性能势参数学习公式第30页
 2.3 统一优化算法第30-32页
 2.4 SMDP性能势g_α~v的学习以及优化算法第32-33页
 2.5 数值例子以及实验结果第33-38页
第三章 SMDP基于Q学习的统一性能优化第38-48页
 3.1 性能势的Q学习第38-40页
  3.1.1 Q学习第38-39页
  3.1.2 Q函数与性能势第39-40页
 3.2 Q函数的最优性方程以及统一优化算法第40-41页
  3.2.1 Q函数的最优性方程第40页
  3.2.2 优化算法第40-41页
 3.3 基于模拟退火思想的Q学习优化算法第41-43页
  3.3.1 模拟退火第41-42页
  3.3.2 改进的 Q学习优化算法第42-43页
 3.4 SMDP基于Q学习的优化算法第43-44页
 3.5 关于Q学习NDP优化的讨论第44-45页
 3.6 数值例子以及实验结果第45-48页
第四章 平均准则下多链SMDP基于性能势的优化第48-61页
 4.1 多链SMDP模型第48-49页
 4.2 基于性能势的Bellman最优方程第49-53页
  4.2.1 多链SMDP性能势第49-51页
  4.2.2 基于性能势的Bellman最优性方程第51-53页
 4.3 基于性能势理论计算的策略迭代算法第53-54页
 4.4 基于性能势 TD学习的 NDP优化算法第54-58页
  4.4.1 性能势的 TD学习和平均代价估计第54-56页
  4.4.2 优化算法第56-58页
 4.5 数值实例以及实验结果第58-61页
  4.5.1 数值例子第58页
  4.5.2 相关优化结果第58-61页
第五章 总结第61-62页
参考文献第62-66页
攻读硕士学位期间主要科研工作和成果第66页

论文共66页,点击 下载论文
上一篇:联合国对国家主权影响的历史与现实分析
下一篇:精神激励研究