首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于深度强化学习的游戏控制算法研究与实现

摘要第4-5页
abstract第5-6页
第一章 绪论第9-16页
    1.1 研究背景及意义第9-10页
    1.2 深度强化学习的研究现状第10-14页
        1.2.1 基于值函数的深度强化学习第11-13页
        1.2.2 基于策略梯度的深度强化学习第13-14页
    1.3 本文主要工作第14-15页
    1.4 论文的结构安排第15-16页
第二章 深度强化学习相关理论研究第16-32页
    2.1 深度学习与卷积神经网络第16-20页
        2.1.1 深度学习概述第16-17页
        2.1.2 卷积神经网络第17-20页
    2.2 强化学习算法研究第20-31页
        2.2.1 强化学习概述第20-21页
        2.2.2 有限马尔科夫决策过程第21-24页
        2.2.3 基于价值函数的算法第24-27页
        2.2.4 基于策略梯度的算法第27-31页
    2.3 本章小结第31-32页
第三章 游戏环境预处理第32-39页
    3.1 OpenAIGym平台第33-36页
        3.1.1 Gym平台通用接口第34页
        3.1.2 Gym评测机制第34-35页
        3.1.3 ALE游戏环境第35-36页
    3.2 游戏环境的预处理第36-38页
    3.3 本章小结第38-39页
第四章 基于游戏环境的深度强化学习算法第39-55页
    4.1 游戏控制问题的难点及本文工作第39-41页
    4.2 一种改进的Actor-Critic策略梯度算法第41-43页
    4.3 网络模型结构设计第43-49页
        4.3.1 网络结构描述第43-45页
        4.3.2 激活函数第45-47页
        4.3.3 优化算法第47-49页
    4.4 Actor-Critic算法的并行化实现第49-53页
    4.5 策略延迟问题的处理第53-54页
    4.6 本章小结第54-55页
第五章 实验设计及结果分析第55-71页
    5.1 实验设计第55-57页
        5.1.1 实验环境介绍第55-57页
        5.1.2 实验方案设计第57页
    5.2 实验结果与分析第57-70页
        5.2.1 算法可行性与稳定性分析第57-61页
        5.2.2 两种模型的对比第61-62页
        5.2.3 不同交互次数的对比第62-63页
        5.2.4 不同输入规模的对比第63-64页
        5.2.5 与deepQ-learning的对比第64-66页
        5.2.6 与GA3C的对比第66-69页
        5.2.7 与其他方法的最终表现对比第69-70页
    5.3 其他环境的适用性分析第70页
    5.4 本章小结第70-71页
第六章 总结与展望第71-73页
    6.1 全文总结第71页
    6.2 后续工作展望第71-73页
致谢第73-74页
参考文献第74-77页

论文共77页,点击 下载论文
上一篇:深度卷积神经网络在OCR问题中的应用研究
下一篇:基于云计算的改进差分进化算法的研究与实现