首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于泛函梯度的策略梯度方法的研究

摘要第5-6页
Abstract第6页
第一章 绪论第8-17页
    1.1 引言第8-9页
    1.2 强化学习简介第9-15页
    1.3 面临的问题第15页
    1.4 本文的工作第15-17页
第二章 值函数方法和策略搜索方法第17-32页
    2.1 引言第17页
    2.2 马尔科夫决策过程第17-19页
    2.3 基于值函数的强化学习方法第19-23页
    2.4 基于策略梯度的强化学习方法第23-31页
    2.5 总结第31-32页
第三章 基于泛函梯度的策略梯度方法第32-44页
    3.1 引言第32-33页
    3.2 PolicyBoost算法和性质第33-38页
    3.3 实验第38-43页
    3.4 总结第43-44页
第四章 结束语第44-45页
参考文献第45-51页
致谢第51-52页
附录第52-53页

论文共53页,点击 下载论文
上一篇:河南省省管国有控股上市公司高管薪酬与企业业绩相关性研究
下一篇:基于高阶类别相关先验知识的室外场景语义分割研究