首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

大规模Markov系统基于性能势学习的NDP优化方法研究

第一章 绪论第1-18页
   ·马尔可夫决策过程概述第12-14页
     ·Markov决策过程的应用背景第12-13页
     ·Markov决策过程的优化控制和性能势第13-14页
   ·强化学习和神经元动态规划第14-16页
   ·论文组织结构安排第16-18页
第二章 Markov决策过程第18-33页
   ·Markov决策过程的分类和数学模型第18-22页
     ·Markov决策过程的分类第19页
     ·Markov决策过程的数学模型描述第19-22页
   ·Markov决策过程的优化第22-26页
     ·Markov决策过程的优化目标第22-23页
     ·样本轨道和仿真优化第23-24页
     ·泊松(Poisson)方程和性能势第24-25页
     ·基于性能势的最优性原理和最优性方程第25-26页
   ·SMDP和α-一致化链第26-33页
     ·SMDP数学模型第27-28页
     ·SMDP等价无穷小生成子和等价Markov过程第28-30页
     ·SMDP的α-一致化Markov链第30-33页
第三章 MDP基于Monte-Carlo仿真的NDP优化第33-48页
   ·Monte-Carlo仿真第33-34页
   ·MDP基于性能势的优化算法第34-36页
     ·策略迭代算法第34-35页
     ·数值迭代算法第35页
     ·仿真算法第35-36页
   ·SMDP/MDP基于性能势的NDP优化第36-44页
     ·神经元动态规划第36-37页
     ·基于样本轨道的仿真优化第37-38页
     ·基于Critic模型的神经元策略迭代第38-40页
     ·神经元策略迭代算法的性能误差界第40-42页
     ·有关结果的推广第42-44页
   ·数值例子第44-48页
第四章 MDP基于TD(0)学习的NDP优化第48-61页
   ·TD学习第48-49页
   ·MDP基于TD(0)学习的NDP方法第49-55页
     ·优化方法第49-52页
     ·SMDP基于TD(0)学习的NDP优化第52页
     ·数值例子第52-55页
   ·折扣平均准则统一的NDP方法第55-61页
     ·性能势的参数TD学习第56-57页
     ·优化算法第57-58页
     ·数值例子第58-61页
第五章 总结第61-62页
参考文献第62-66页
攻读硕士学位期间主要科研工作和成果第66页

论文共66页,点击 下载论文
上一篇:学生伤害事故赔偿归责问题研究
下一篇:XK717数控铣床进给传动系统的动力学优化