首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于改进策略梯度方法的游戏智能研究

摘要第5-6页
Abstract第6页
第一章 绪论第9-13页
    1.1 研究背景及意义第9页
    1.2 国内外研究进展第9-11页
        1.2.1 深度强化学习起源与发展第9-10页
        1.2.2 深度强化学习在游戏中的进展第10-11页
        1.2.3 深度强化学习在商业中的应用第11页
    1.3 本论文主要研究工作第11-13页
第二章 有模型学习第13-24页
    2.1 强化学习框架第13-16页
        2.1.1 交互模型第13-14页
        2.1.2 马尔可夫决策过程第14-16页
    2.2 探索-利用窘境第16-19页
        2.2.1 ε-贪心法第17-18页
        2.2.2 Softmax法第18-19页
    2.3 动态规划求解第19-23页
        2.3.1 Bellman等式第19-21页
        2.3.2 策略改进第21-22页
        2.3.3 策略迭代与值迭代第22-23页
    2.4 本章小结第23-24页
第三章 免模型学习第24-32页
    3.1 蒙特卡罗方法第24-26页
        3.1.1 同策略学习第24-25页
        3.1.2 异策略学习第25-26页
    3.2 时序差分学习第26-27页
    3.3 DQN算法第27-31页
        3.3.1 Q-Learning算法第27-28页
        3.3.2 值函数近似第28-30页
        3.3.3 神经网络化第30-31页
    3.4 本章小结第31-32页
第四章 Reinforce算法及其改进第32-51页
    4.1 策略梯度方法第32-35页
        4.1.1 利益函数第32-33页
        4.1.2 Reinforce算法第33-35页
    4.2 Reinforce算法的缺陷与改进第35-40页
        4.2.1 熵正则化第35-36页
        4.2.2 经验池第36-38页
        4.2.3 2ER-Reinforce算法第38-40页
    4.3 实验与分析第40-50页
        4.3.1 实验环境第40-41页
        4.3.2 实验设计第41-42页
        4.3.3 实验结果第42-49页
        4.3.4 实验思考第49-50页
    4.4 本章小结第50-51页
总结与展望第51-52页
参考文献第52-55页
攻读硕士学位期间取得的研究成果第55-56页
致谢第56-57页
附件第57页

论文共57页,点击 下载论文
上一篇:基于IMU预积分的视觉惯性里程计系统
下一篇:基于标签深度分析的音乐自动标注算法