首页--数理科学和化学论文--运筹学论文--对策论(博弈论)论文

部分观测马尔科夫决策过程中基于记忆的强化学习问题研究

学位论文的主要创新点第3-4页
摘要第4-5页
Abstract第5页
第一章 绪论第8-12页
    1.1 研究背景第8页
    1.2 POMDP问题研究现状第8-11页
        1.2.1 基于模型和无模型方法第9页
        1.2.2 POMDP问题国内研究现状第9-10页
        1.2.3 POMDP问题国外研究现状第10-11页
    1.3 论文结构安排第11-12页
第二章 部分观测马尔科夫中基于记忆的强化学习问题第12-20页
    2.1 POMDP模型第12-14页
        2.1.1 模型描述第12-13页
        2.1.2 求解算法第13-14页
    2.2 强化学习第14-16页
        2.2.1 强化学习简介第14-15页
        2.2.2 强化学习的基本原理第15-16页
        2.2.3 强化学习求解部分观测马尔科夫问题第16页
    2.3 POMDP中基于记忆的强化学习算法第16-20页
        2.3.1 无记忆方法概述第16-17页
        2.3.2 基于记忆的方法概述第17-20页
第三章 EIU-Tree算法第20-30页
    3.1 引言第20页
    3.2 U-Tree算法简介第20-22页
    3.3 EIU-Tree算法详解第22-27页
    3.4 实验仿真第27-28页
    3.5 本章小结第28-30页
第四章 SU-Tree算法第30-42页
    4.1 引言第30页
    4.2 Q-学习和Sarsa(λ)算法第30-32页
        4.2.1 Q-学习第30-31页
        4.2.2 Sarsa(λ)学习第31-32页
    4.3 MU-Tree算法第32-33页
    4.4 SU-Tree算法第33-39页
        4.4.1 SU-Tree算法详解第33-38页
        4.4.2 SU-Tree算法仿真实验第38-39页
    4.5 本章小结第39-42页
第五章 奶酪迷宫问题第42-46页
    5.1 奶酪迷宫问题模型第42页
    5.2 实验仿真第42-46页
第六章 总结与展望第46-48页
    6.1 论文总结第46页
    6.2 研究展望第46-48页
参考文献第48-52页
发表论文和参加科研情况第52-54页
致谢第54页

论文共54页,点击 下载论文
上一篇:哌立福新对心肌细胞缺血再灌注损伤的保护作用及机制探讨
下一篇:Hsa-miRNA-643调控Raf1影响NSCLC放射敏感性及侵袭转移的初步研究