首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

SMDP基于性能势的NDP优化方法及应用研究

第一章 绪论第1-23页
   ·DEDS概述第14-16页
     ·DEDS定义及特点第14页
     ·DEDS的分类及有关研究理论和方法第14-16页
   ·SMDP/MDP及性能势理论第16-18页
   ·强化学习第18-21页
     ·强化学习定义第18-19页
     ·强化学习算法第19-20页
     ·强化学习优点第20-21页
   ·神经元动态规划第21-22页
     ·神经元动态规划概念第21页
     ·神经元动态规划模型第21-22页
   ·文章的组织结构安排第22-23页
第二章 半Markov决策过程第23-33页
   ·SMDP/MDP数学模型第23-25页
     ·SMDP数学模型第23-24页
     ·MDP数学模型第24-25页
   ·SMDP与CTMDP及其等价一致链的关系第25-27页
   ·SMDP优化第27-33页
     ·优化目标及优化方法第27-28页
     ·样本轨道仿真第28-29页
     ·SMDP及其等价一致链性能势理论第29-30页
     ·基于性能势的Bellman最优性方程第30-33页
第三章 SMDP基于actor模式的NDP优化第33-47页
   ·TD学习第33-35页
     ·适合迹第33-34页
     ·性能势基于样本轨道的TD学习第34-35页
   ·Actor网络近似策略逼近第35-41页
     ·Actor网络结构第36-37页
     ·Actor网络训练第37-41页
       ·梯度法第37-40页
       ·样本训练法第40-41页
   ·Actor算法最优性能误差界第41页
   ·数值例子第41-47页
第四章 SMDP基于actor-critic模式的NDP优化第47-53页
   ·Critic网络近似性能势逼近第47-49页
     ·Critic网络结构第47-48页
     ·Critic网络训练第48-49页
   ·Actor-critic算法第49页
   ·Actor-critic算法最优性能误差界第49-50页
   ·数值例子第50-53页
第五章 NDP在呼叫接入控制中的应用第53-62页
   ·CAC问题的建模第53-56页
   ·CAC中的NDP优化第56-62页
     ·Critic模式第56-58页
     ·Actor模式第58-60页
     ·Actor-critic模式第60-62页
第六章 总结第62-64页
参考文献第64-67页
攻读硕士学位期间主要科研工作和成果第67页

论文共67页,点击 下载论文
上一篇:变间距光栅设计、制作及其在位移传感器中的应用研究
下一篇:童年期虐待经历与青少年不良饮食心理行为的研究