首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于非参函数逼近的强化学习算法研究

摘要第4-5页
Abstract第5页
引言第8-9页
第一章 绪论第9-13页
    1.1 研究背景及意义第9-10页
    1.2 相关研究现状第10-11页
    1.3 本文的主要工作及创新点第11页
    1.4 本文的组织结构第11-13页
第二章 强化学习与函数逼近概述第13-25页
    2.1 强化学习概述第13-16页
        2.1.1 强化学习简介第13-14页
        2.1.2 强化学习分类第14-15页
        2.1.3 强化学习基本算法第15页
        2.1.4 强化学习问题的建模第15-16页
    2.2 函数逼近概述第16-21页
        2.2.1 带参函数逼近第16-18页
        2.2.2 非参函数逼近第18-20页
        2.2.3 带参与非参函数逼近器的比较第20-21页
    2.3 基于函数逼近的强化学习第21-24页
        2.3.1 近似值迭代第21-22页
        2.3.2 近似策略迭代第22-23页
        2.3.3 近似策略搜索第23-24页
    2.4 基于非参函数逼近的强化学习算法第24页
    2.5 本章小结第24-25页
第三章 基于优先级扫描的非参TD算法第25-37页
    3.1 核函数与 TD(λ)最小二乘方法第25-28页
        3.1.1 核函数的定义第25-26页
        3.1.2 时间差分学习第26-27页
        3.1.3 最小二乘 TD(λ)方法第27-28页
    3.2 优先级扫描与基于核函数的 TD 算法第28-32页
        3.2.1 基于核函数的近似 Q 值函数第28-29页
        3.2.2 基于核函数的最小二乘 TD 算法第29-30页
        3.2.3 Dyna 结构与优先级扫描第30-32页
    3.3 基于优先级扫描的非参 TD 最小二乘策略迭代算法第32-33页
    3.4 实验结果分析第33-35页
    3.5 本章小结第35-37页
第四章 基于稀疏样本的高斯过程策略迭代算法第37-49页
    4.1 高斯回归与 TD(λ)算法第37-41页
        4.1.1 高斯回归第37-38页
        4.1.2 基于高斯回归的 TD(λ)算法第38-41页
    4.2 样本稀疏化方法第41-45页
        4.2.1 ALD 核稀疏方法第41-43页
        4.2.2 在线样本稀疏化第43-45页
    4.3 基于稀疏样本的高斯过程策略迭代算法第45-46页
    4.4 实验结果分析第46-48页
    4.5 本章小结第48-49页
第五章 总结与展望第49-51页
    5.1 本文总结第49-50页
    5.2 后续工作展望第50-51页
参考文献第51-56页
致谢第56-57页

论文共57页,点击 下载论文
上一篇:炉衬材料加工生产线电气控制系统的硬件设计
下一篇:基于xPC电机台架的综合数据采集系统