首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于深度强化学习机制的棋盘类游戏算法的设计与实现

摘要第5-7页
Abstract第7-8页
第一章 绪论第13-19页
    1.1 研究背景与意义第13页
    1.2 国内外研究现状第13-17页
        1.2.1 深度强化学习的早期成果第13-14页
        1.2.2 深度强化学习的近期进展第14-17页
    1.3 本文主要研究工作第17-18页
    1.4 本文的组织结构第18-19页
第二章 深度强化学习概述第19-32页
    2.1 强化学习第19-24页
        2.1.1 马尔可夫决策过程第19-21页
        2.1.2 策略第21页
        2.1.3 值函数第21-22页
        2.1.4 蒙特卡洛强化学习第22-23页
        2.1.5 时间差分学习第23-24页
    2.2 深度强化学习第24-31页
        2.2.1 Deep Q-network第25-28页
        2.2.2 异步优势行动者-评论家算法(A3C)第28-31页
    2.3 本章小结第31-32页
第三章 基于强化学习的棋盘类游戏算法第32-48页
    3.1 基于评价函数的棋盘类游戏强化学习算法第32-37页
        3.1.1 TD-Gammon第33页
        3.1.2 基于多维循环神经网络与进化策略的棋盘类游戏算法第33-36页
        3.1.3 基于强化学习的自适应动态规划五子棋算法第36-37页
    3.2 一种利用UCT算法训练Deep Q-network的棋盘类游戏算法第37-47页
        3.2.1 蒙特卡洛树搜索第37-39页
        3.2.2 利用UCT算法指导Deep Q-network的训练第39-43页
        3.2.3 实验与分析第43-47页
    3.3 本章小结第47-48页
第四章 基于先进深度强化学习机制的棋盘类游戏算法第48-75页
    4.1 基于深度神经网络与蒙特卡洛树搜索的AlphaGo系列围棋算法第48-56页
        4.1.1 AlphaGo概述第48-53页
        4.1.2 AlphaGo Zero概述第53-56页
    4.2 一种结合引导聚集算法的深度强化学习算法第56-64页
        4.2.1 一种启发式的优先级采样机制第57-58页
        4.2.2 基于交叉信息熵的自适应学习率第58-59页
        4.2.3 对弈中的探索第59-60页
        4.2.4 结合引导聚集算法与UCT的深度强化学习训练算法第60-64页
    4.3 一种基于组合策略的UCT算法第64-66页
        4.3.1 评估神经网络第64-65页
        4.3.2 基于组合策略的并行搜索第65-66页
    4.4 实验与分析第66-73页
        4.4.1 计算环境介绍第67页
        4.4.2 实验基本设置第67-68页
        4.4.3 实验方案、结果及分析第68-73页
    4.5 本章小结第73-75页
第五章 总结与展望第75-77页
    5.1 总结第75-76页
    5.2 进一步工作展望第76-77页
参考文献第77-83页
致谢第83-85页

论文共85页,点击 下载论文
上一篇:液体圆盘微腔结构的高灵敏度折射率传感器研究
下一篇:基于智能算法的教学管理信息系统的设计