首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于有界动作策略的强化学习探索方法

摘要第4-6页
ABSTRACT第6-7页
第一章 绪论第12-20页
    1.1 研究背景及意义第12-14页
    1.2 国内外研究现状第14-18页
    1.3 本文主要工作第18-19页
    1.4 论文组织架构第19-20页
第二章 相关理论及技术原理第20-40页
    2.1 强化学习基础第20-26页
        2.1.1 强化学习简介与马尔科夫决策过程第20-23页
        2.1.2 动态规划类方法第23-26页
    2.2 值函数近似以及策略梯度第26-34页
        2.2.1 值函数近似与深度Q网络第26-29页
        2.2.2 策略梯度与随机策略梯度第29-33页
        2.2.3 Actor Critic框架第33-34页
    2.3 强化学习中的探索与利用问题第34-36页
    2.4 深度学习简介第36-39页
        2.4.1 人工神经网络简介第37-38页
        2.4.2 深度神经网络简介第38-39页
        2.4.3 深度强化学习简介第39页
    2.5 本章小结第39-40页
第三章 基于连续动作空间控制任务的强化学习算法第40-48页
    3.1 问题描述第40-41页
    3.2 TRPO算法和PPO算法简介第41页
    3.3 高斯策略以及边界效应第41-43页
    3.4 基于逻辑高斯策略的TRPO算法与PPO算法第43-45页
        3.4.1 逻辑高斯策略第43页
        3.4.2 基于逻辑高斯策略的TRPO算法与PPO算法第43-45页
    3.5 模型结构与详细参数设置第45-46页
    3.6 逻辑高斯策略与高斯策略对比第46-47页
    3.7 本章小结第47-48页
第四章 实验结果及分析第48-55页
    4.1 实验环境简介第48页
    4.2 基于传统控制任务的实验第48-50页
        4.2.1 任务及实验设置说明第48-49页
        4.2.2 实验结果分析第49-50页
    4.3 基于多关节于动控制任务的实验第50-54页
        4.3.1 任务及实验设置说明第50-52页
        4.3.2 实验结果分析第52-54页
    4.4 本章小结第54-55页
总结与展望第55-56页
参考文献第56-60页
攻读学位期间发表论文第60-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:动态场景下融合视觉语义的激光SLAM感知方法研究
下一篇:基于ISOMAP算法的贝叶斯分类模型及应用