首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于深度环境理解和行为模仿的强化学习智能体设计

致谢第4-5页
摘要第5-6页
ABSTRACT第6-7页
1 绪论第12-19页
    1.1 研究背景与意义第12-13页
    1.2 国内外研究现状第13-16页
    1.3 本文主要研究工作第16-17页
    1.4 本文组织结构第17-18页
    1.5 本章小结第18-19页
2 理论基础第19-36页
    2.1 序列决策问题和马尔科夫决策过程第19-22页
        2.1.1 序列决策问题第19-20页
        2.1.2 马尔科夫决策过程第20-22页
    2.2 强化学习第22-27页
        2.2.1 强化学习算法主要思想和关键问题第23-24页
        2.2.2 基于值函数的算法第24-26页
        2.2.3 基于策略梯度的算法第26-27页
    2.3 其他知识与概念第27-35页
        2.3.1 深度学习和卷积神经网络第27-30页
        2.3.2 目标检测算法简介第30-32页
        2.3.3 模仿学习第32-35页
    2.4 本章小结第35-36页
3 游戏问题建模与强化学习智能体设计第36-63页
    3.1 FIFA游戏与SHOOTING BRONZE场景介绍第36-38页
        3.1.1 FIFA游戏简介第36-37页
        3.1.2 Shooting Bronze场景简介第37-38页
    3.2 SHOOTING BRONZE问题建模第38-41页
    3.3 系统架构第41-44页
        3.3.1 包含复杂环境输入的决策问题设计方案第41-42页
        3.3.2 Shooting Bronze序列决策问题设计方案第42-43页
        3.3.3 整体架构方案设计第43-44页
    3.4 感知模块设计第44-50页
        3.4.1 迁移学习方法分析第44-46页
        3.4.2 目标检测算法选择第46-47页
        3.4.3 感知模块设计方案第47-50页
    3.5 决策模块设计第50-60页
        3.5.1 Dribble模仿学习设计第51-54页
        3.5.2 Shoot强化学习设计第54-60页
    3.6 环境模块设计第60-62页
        3.6.1 屏幕抓取模块第60页
        3.6.2 分数检测模块第60-61页
        3.6.3 按键控制模块第61-62页
    3.7 本章小结第62-63页
4 实验设计及结果分析第63-76页
    4.1 实验环境介绍第63页
    4.2 实验结果分析和比较第63-75页
        4.2.1 强化学习智能体实验结果第64-65页
        4.2.2 算法可行性和稳定性分析第65-68页
        4.2.3 本文方法同Double DQN算法对比第68-70页
        4.2.4 分离式深度环境感知算法同通用感知方法对比第70-72页
        4.2.5 行为模仿辅助的强化学习算法同单一决策算法对比第72-74页
        4.2.6 Counter-based和random-based探索算法对比第74-75页
    4.3 本章小结第75-76页
5 总结与展望第76-78页
    5.1 论文研究工作总结第76-77页
    5.2 今后工作展望第77-78页
参考文献第78-86页
作者简历第86-87页
作者攻读硕士学位期间发表的论文第87页

论文共87页,点击 下载论文
上一篇:基于光频移扫描相干光时域反射计的长距离高分辨率分布式光纤温度传感技术
下一篇:花岗岩风化过程锂同位素行为及其环境指示意义