首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于多重门限机制的异步深度强化学习

中文摘要第4-6页
abstract第6-7页
第一章 引言第10-20页
    1.1 研究背景及意义第10-13页
        1.1.1 研究背景第10-12页
        1.1.2 研究意义第12-13页
    1.2 研究现状第13-17页
    1.3 研究内容第17-18页
    1.4 论文组织结构第18-20页
第二章 背景知识第20-30页
    2.1 马尔科夫决策过程第20-22页
    2.2 强化学习基本方法第22-27页
        2.2.1 时间差分方法第22-24页
        2.2.2 策略梯度方法第24-25页
        2.2.3 行动者-评论家方法第25-27页
    2.3 异步深度强化学习第27-29页
    2.4 本章小结第29-30页
第三章 基于多重门限机制的异步优势行动者-评论家算法第30-45页
    3.1 多重门限机制第30-34页
        3.1.1 门限机制第30-32页
        3.1.2 多重门限机制第32-34页
    3.2 基于多重门限机制的异步优势行动者-评论家算法第34-36页
        3.2.1 训练算法描述第34-35页
        3.2.2 模型架构描述第35-36页
    3.3 仿真实验第36-44页
        3.3.1 实验描述第36-38页
        3.3.2 实验设置第38页
        3.3.3 实验结果与分析第38-44页
    3.4 本章小结第44-45页
第四章 基于跳跃连接的异步优势行动者-评论家算法第45-56页
    4.1 跳跃连接第45-47页
    4.2 基于跳跃连接的异步优势行动者-评论家算法第47-50页
        4.2.1 模型架构第47-49页
        4.2.2 模型参数更新方式第49-50页
    4.3 仿真实验第50-55页
        4.3.1 实验描述以及参数设置第50-52页
        4.3.2 实验结果及分析第52-55页
    4.4 本章小结第55-56页
第五章 基于多重门限机制的自适应近邻区间策略优化算法第56-67页
    5.1 置信区间策略优化方法第56-58页
    5.2 自适应区间裁剪方法第58-59页
    5.3 基于多重门限机制的自适应近邻区间策略优化算法第59-61页
    5.4 仿真实验第61-66页
        5.4.1 实验描述及参数设置第61-62页
        5.4.2 实验结果及分析第62-66页
    5.5 本章小结第66-67页
第六章 总结与展望第67-69页
    6.1 总结第67-68页
    6.2 展望第68-69页
参考文献第69-76页
攻读硕士学位期间公开发表(录用)的论文及参与的项目第76-77页
    一、公开发表(录用)的学术论文第76页
    二、专利第76页
    三、参加的科研项目第76-77页
致谢第77-78页

论文共78页,点击 下载论文
上一篇:面向障碍环境移动操作臂的运动规划方法研究
下一篇:基于BP神经网络的大学生编程能力评价方法研究