首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

面向强化学习的模型学习算法研究

中文摘要第4-5页
Abstract第5-6页
第一章 引言第10-15页
    1.1 研究背景及意义第10-11页
    1.2 研究现状第11-12页
    1.3 研究内容第12-13页
    1.4 论文组织结构第13-15页
第二章 背景知识第15-22页
    2.1 马尔科夫决策过程第15-16页
    2.2 强化学习经典算法第16-19页
        2.2.1 动态规划第16-17页
        2.2.2 蒙特卡罗方法第17-18页
        2.2.3 时间差分方法第18-19页
    2.3 模型学习方法第19-21页
    2.4 本章小结第21-22页
第三章 基于轨迹采样Dyna-Search的值迭代算法第22-34页
    3.1 启发式搜索第22-23页
        3.1.1 将规划用于动作选择第22-23页
        3.1.2 TD搜索第23页
    3.2 基于轨迹采样Dyna-Search的值迭代算法第23-28页
        3.2.1 轨迹采样的值迭代第23-24页
        3.2.2 模型构建第24-25页
        3.2.3 DynaTSVI第25-27页
        3.2.4 算法分析第27-28页
    3.3 实验及结果分析第28-33页
        3.3.1 Dyna Maze第28-31页
        3.3.2 带风的格子世界第31-33页
    3.4 本章小结第33-34页
第四章 基于自模拟度量和R-MAX的Dyna算法第34-44页
    4.1 Dyna-H第34-35页
    4.2 自模拟度量第35页
    4.3 R-MAX第35-36页
    4.4 BMRMAX算法第36-39页
        4.4.1 自模拟度量与R-MAX相结合第36-37页
        4.4.2 算法描述第37-38页
        4.4.3 算法分析第38-39页
    4.5 实验及结果分析第39-43页
        4.5.1 Red Herring第39-42页
        4.5.2 Dyna Maze第42-43页
    4.6 本章小结第43-44页
第五章 基于近似模型的连续空间Dyna算法第44-55页
    5.1 值函数的近似表示第44-45页
    5.2 近似模型第45页
    5.3 梯度下降的TD(λ)第45-47页
    5.4 基于近似模型的连续空间Dyna算法第47-50页
        5.4.1 自适应的规划强度第47页
        5.4.2 优先级队列第47-48页
        5.4.3 ε衰减第48页
        5.4.4 算法描述第48-50页
    5.5 实验结果与分析第50-54页
        5.5.1 Mountain Car实验介绍第50-51页
        5.5.2 奖赏的设置第51-52页
        5.5.3 实验结果分析第52-54页
    5.6 本章小结第54-55页
第六章 总结与展望第55-57页
    6.1 总结第55-56页
    6.2 展望第56-57页
参考文献第57-61页
攻读硕士学位期间公开发表(录用)的论文与科研项目第61-62页
致谢第62-63页

论文共63页,点击 下载论文
上一篇:多路数据采集系统设计与实现
下一篇:步行康复训练机器人及步态评价方法研究