首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

多步强化学习算法的理论研究

摘要第3-4页
ABSTRACT第4页
第1章 前言第7-11页
    1.1 研究背景与现状第7-8页
    1.2 研究强化学习的意义第8-9页
    1.3 当代强化学习与函数逼近第9-11页
第2章 强化学习简介第11-19页
    2.1 强化学习简介第11-13页
    2.2 马尔科夫决策过程第13-19页
        2.2.1 策略(policy)第14页
        2.2.2 价值函数第14-15页
        2.2.3 Bellman方程第15页
        2.2.4 最优策略第15-16页
        2.2.5 最优策略的存在性第16-18页
        2.2.6 强化学习的难点第18-19页
第3章 强化学习的基本方法第19-27页
    3.1 动态规划(Dynamic Programming,DP)第19-23页
        3.1.1 策略估值第20页
        3.1.2 策略迭代第20-23页
        3.1.3 值迭代第23页
    3.2 蒙特卡罗算法(Monte Carlo,MC)第23-27页
        3.2.1 MC的基本思想第24-25页
        3.2.2 MC策略提升第25-26页
        3.2.3 增量式的实现第26-27页
第4章 多步时间差分算法的理论分析第27-35页
    4.1 时间差分算法(Temporal Difference,TD)第27页
    4.2 Sarsa算法第27-28页
    4.3 Expected Sarsa算法第28-29页
        4.3.1 Sarsa与Expected Sarsa的收敛性分析第28-29页
    4.4 Q(σ)算法第29-30页
    4.5 多步时间差分算法第30-35页
        4.5.1 多步Sarsa算法第30页
        4.5.2 多步Tree Backup算法第30-31页
        4.5.3 多步Q(σ)算法第31-35页
第5章 结束语第35-37页
参考文献第37-41页
发表论文和参加科研情况说明第41-43页
致谢第43页

论文共43页,点击 下载论文
上一篇:机场能源优化调度问题研究
下一篇:基于GSM的楼道防火防盗报警系统设计