首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

大规模状态的最优策略学习研究

中文摘要第4-6页
abstract第6-7页
第一章 绪论第11-21页
    1.1 引言第11-12页
    1.2 论文选题与意义第12-13页
    1.3 国内外研究现状第13-18页
        1.3.1 模型相关方法第14-15页
        1.3.2 模型无关方法第15-17页
        1.3.3 基于模型学习的方法第17-18页
    1.4 本文的研究内容及贡献第18-20页
    1.5 本文的组织结构第20-21页
第二章 背景知识第21-32页
    2.1 马尔科夫决策过程第21-23页
    2.2 时间差分算法第23-29页
        2.2.1 TD算法第23-24页
        2.2.2 Sarsa算法第24-26页
        2.2.3 Q-learning算法第26-27页
        2.2.4 最小二乘时间差分算法第27-29页
    2.3 行动者评论家算法第29-30页
    2.4 DYNA结构第30-31页
    2.5 结束语第31-32页
第三章 基于近似模型的启发式DYNA算法第32-48页
    3.1 HDYNA-AMR算法第32-40页
        3.1.1 探索机制和启发式额外奖赏第32-33页
        3.1.2 近似模型学习第33页
        3.1.3 基于优先级的重点采样第33-34页
        3.1.4 算法描述第34-36页
        3.1.5 时间复杂度分析第36页
        3.1.6 算法收敛性分析第36-40页
    3.2 实验结果分析第40-47页
        3.2.1 Boyan Chain第41-45页
        3.2.2 Mountain Car第45-47页
    3.3 结束语第47-48页
第四章 基于层次模型学习与规划的行动者评论家算法第48-65页
    4.1 层次化模型第48-52页
        4.1.1 全局模型第48-49页
        4.1.2 局部模型第49-52页
    4.2 基于层次模型学习与规划的行动者评论家算法第52-55页
        4.2.1 AC-HMLP算法第52-54页
        4.2.2 二范数正则化的AC-HMLP算法第54-55页
        4.2.3 时间复杂度分析第55页
    4.3 实验结果分析第55-64页
        4.3.1 平衡杆第55-61页
        4.3.2 连续迷宫第61-64页
    4.4 结束语第64-65页
第五章 基于最小二乘时间差分和策略近似的强化学习算法第65-85页
    5.1 参数学习第65-68页
        5.1.1 策略学习第65-66页
        5.1.2 模型学习第66-67页
        5.1.3 值函数学习第67-68页
    5.2 基于最小二乘时间差分和策略近似的行动者评论家算法第68-78页
        5.2.1 探索策略第68页
        5.2.2 算法描述第68-70页
        5.2.3 时间复杂度分析第70-71页
        5.2.4 理论分析第71-78页
    5.3 实验结果分析第78-83页
        5.3.1 倒立摆第78-81页
        5.3.2 清洁机器人第81-83页
    5.4 结束语第83-85页
第六章 基于经验回放和模型学习共同加速的正则化自然AC算法第85-101页
    6.1 基于优势函数的自然策略梯度第85-88页
        6.1.1 策略梯度第85-86页
        6.1.2 优势函数第86页
        6.1.3 正则化自然梯度第86-88页
    6.2 基于经验回放和模型学习共同加速的正则化自然AC算法第88-96页
        6.2.1 经验回放第88-90页
        6.2.2 模型学习第90页
        6.2.3 算法描述第90-92页
        6.2.4 时间复杂度分析第92页
        6.2.5 算法收敛性分析第92-96页
    6.3 实验结果分析第96-99页
        6.3.1 平衡杆第96-97页
        6.3.2 倒立摆第97-99页
    6.4 结束语第99-101页
第七章 总结与展望第101-104页
    7.1 总结第101-102页
    7.2 展望第102-104页
参考文献第104-112页
博士期间相关科研情况第112-114页
    一、公开发表(录用)的学术论文第112-113页
    二、参加的科研项目第113-114页
致谢第114-116页

论文共116页,点击 下载论文
上一篇:携带IL-2\NK4双基因减毒沙门氏菌DNA疫苗的制备及其抗肿瘤效应研究
下一篇:耕地资源社会保障问题研究--以甘肃省临夏县为例