首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于核方法的近似强化学习的研究

中文摘要第4-6页
abstract第6-7页
第一章 引言第11-18页
    1.1 研究背景及意义第11-13页
    1.2 研究现状第13-15页
    1.3 研究内容第15-16页
    1.4 论文组织结构第16-18页
第二章 背景知识第18-31页
    2.1 马尔科夫决策过程第18-20页
    2.2 核方法及稀疏化方法第20-24页
        2.2.1 核方法第20-22页
        2.2.2 稀疏化方法第22-24页
    2.3 强化学习基本方法第24-30页
        2.3.1 时间差分方法第24-27页
        2.3.2 策略梯度方法第27-29页
        2.3.3 行动者-评论家方法第29-30页
    2.4 本章小结第30-31页
第三章 基于聚类稀疏化的选择性核方法第31-44页
    3.1 选择性核函数第31-32页
    3.2 基于聚类的稀疏化算法第32-37页
        3.2.1 基于距离的新奇规则算法第32-34页
        3.2.2 基于聚类的新奇规则算法第34-37页
    3.3 算法设计第37-38页
    3.4 实验及结果分析第38-43页
        3.4.1 实验描述第38-39页
        3.4.2 实验结果分析第39-43页
    3.5 本章小结第43-44页
第四章 基于核的真实在线策略评估算法第44-54页
    4.1 真实在线理论基础第44-45页
    4.2 真实在线策略评估第45-49页
        4.2.1 基于核的真实在线时间差分算法第45-47页
        4.2.2 基于核的真实在线双重启发式动态规划算法第47-49页
    4.3 实验及结果分析第49-53页
        4.3.1 实验描述第49-51页
        4.3.2 实验结果分析第51-53页
    4.4 本章小结第53-54页
第五章 基于核的真实在线自然策略梯度算法第54-68页
    5.1 自然策略梯度方法第54-58页
        5.1.1 策略梯度第54-57页
        5.1.2 自然策略梯度第57-58页
    5.2 基于核的真实在线自然梯度行动者-评论家算法第58-63页
    5.3 实验结果分析第63-67页
        5.3.1 平衡杆第63-64页
        5.3.2 Mountain Car第64-65页
        5.3.3 Acrobot第65-67页
    5.4 本章小结第67-68页
第六章 总结与展望第68-70页
    6.1 总结第68-69页
    6.2 展望第69-70页
参考文献第70-76页
攻读硕士学位期间公开发表(录用)的论文及参与的项目第76-78页
    一、公开发表(录用)的学术论文第76页
    二、专利第76-77页
    三、参加的科研项目第77-78页
致谢第78-79页

论文共79页,点击 下载论文
上一篇:媒介传播视域下的创客文化研究
下一篇:基于图嵌入流形学习的人脸识别算法研究