首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于高斯过程回归的强化学习算法研究

摘要第4-5页
Abstract第5-6页
第一章 引言第10-14页
    1.1 研究背景及意义第10-11页
    1.2 国内外研究现状第11-12页
        1.2.1 国外研究现状第11-12页
        1.2.2 国内研究现状第12页
    1.3 主要创新工作第12-13页
    1.4 论文组织结构第13-14页
第二章 强化学习理论概述第14-27页
    2.1 强化学习简介第14页
    2.2 强化学习框架第14-17页
        2.2.1 强化学习模型第14-15页
        2.2.2 强化学习的四个要素第15-16页
        2.2.3 马尔科夫决策过程第16-17页
    2.3 强化学习中的探索与利用第17-18页
    2.4 强化学习经典算法第18-23页
        2.4.1 TD 算法第18-20页
        2.4.2 SARSA 算法第20-21页
        2.4.3 Q-learning 算法第21-22页
        2.4.4 Actor-Critic 算法第22-23页
    2.5 强化学习中的值函数逼近第23-26页
        2.5.1 带参函数逼近器第24页
        2.5.2 非参函数逼近器第24-25页
        2.5.3 带参与非参逼近器的区别第25-26页
    2.6 强化学习应用第26页
    2.7 本章小结第26-27页
第三章 高斯过程回归理论第27-36页
    3.1 高斯过程的定义第27-28页
    3.2 高斯过程回归预测第28-30页
    3.3 高斯模型的训练第30-34页
        3.3.1 参数集合的选择第31-32页
        3.3.2 协方差函数模型的选择第32-34页
    3.4 高斯过程回归的缺点及改进方法第34-35页
        3.4.1 SD(Subset of data)近似法第34-35页
        3.4.2 SPGP(Sparse pseudo-input Gaussian process)方法第35页
    3.5 本章小结第35-36页
第四章 基于 GPR 的 Dyna 框架聚类优化算法第36-44页
    4.1 Dyna 框架及相关算法第36-38页
        4.1.1 Dyna 框架结构第36-37页
        4.1.2 Dyna-Q 算法第37-38页
    4.2 聚类分析第38页
    4.3 基于 GPR 的 Dyna 框架聚类优化算法第38-40页
    4.4 实验及结果分析第40-42页
        4.4.1 实验描述第40页
        4.4.2 实验设置第40页
        4.4.3 实验分析第40-42页
    4.5 本章小结第42-44页
第五章 基于 GPR 的连续空间值迭代算法第44-52页
    5.1 基于模型的值迭代第44页
    5.2 基于 GPR 的连续空间的值迭代算法第44-45页
    5.3 实验及结果分析第45-51页
        5.3.1 实验描述第45-47页
        5.3.2 实验设置第47-48页
        5.3.3 实验分析第48-51页
    5.4 本章小结第51-52页
第六章 总结与展望第52-54页
    6.1 工作总结第52页
    6.2 工作展望第52-54页
参考文献第54-58页
致谢第58-59页

论文共59页,点击 下载论文
上一篇:温室智能控制终端的设计与实现
下一篇:机场跑道异物识别扫描控制算法及系统设计研究