首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于贝叶斯理论的行动者评论家算法研究

中文摘要第4-5页
Abstract第5-6页
第一章 引言第9-16页
    1.1 研究背景及意义第9-11页
    1.2 相关研究现状第11-13页
    1.3 主要工作第13-14页
    1.4 论文组织结构第14-16页
第二章 相关理论概述第16-32页
    2.1 马尔科夫决策过程第16-18页
    2.2 强化学习中的经典算法第18-29页
        2.2.1 动态规划第19-24页
        2.2.2 时间差分算法第24-27页
        2.2.3 行动者评论家算法第27-29页
    2.3 贝叶斯推理第29-30页
    2.4 高斯过程第30-31页
    2.6 本章小结第31-32页
第三章 一种基于高斯过程时间差分的AC算法第32-45页
    3.1 带参高斯过程时间差分方法第32-34页
    3.2 改进的带参高斯过程时间差分模型第34-36页
    3.3 BGPAC算法第36-38页
    3.4 实验结果及分析第38-44页
        3.4.1 实验描述第39-40页
        3.4.2 实验设置第40页
        3.4.3 实验结果及分析第40-44页
    3.5 本章小结第44-45页
第四章 一种基于高斯过程的离策AC算法第45-58页
    4.1 相关理论第45-49页
        4.1.1 离策略强化学习第45-46页
        4.1.2 带资格迹的梯度时间差分方法第46-49页
    4.2 改进的动作值函数概率生成模型第49-51页
    4.3 GPOPAC算法第51-53页
    4.4 实验结果及分析第53-57页
        4.4.1 实验描述第53-54页
        4.4.2 实验设置第54-55页
        4.4.3 实验结果及分析第55-57页
    4.6 本章小结第57-58页
第五章 总结与展望第58-60页
    5.1 本文工作总结第58-59页
    5.2 本文工作展望第59-60页
参考文献第60-65页
攻读硕士学位期间公开发表(录用)的论文与科研项目第65-66页
致谢第66-68页

论文共68页,点击 下载论文
上一篇:恶劣工况下自适应RFID通讯技术及其应用研究
下一篇:《清洁能源助力经济发展》(第四章)翻译实践报告