首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于改进ELM的递归最小二乘强化学习算法的研究

学位论文数据集第4-5页
摘要第5-7页
ABSTRACT第7-8页
第一章 绪论第13-19页
    1.1 引言第13-14页
    1.2 研究发展与现状第14-16页
    1.3 本论文研究的内容第16-19页
第二章 策略评价和策略寻优基础理论与算法第19-25页
    2.1 马尔可夫决策过程与策略问题第19-21页
        2.1.1 马尔可夫决策过程第19-20页
        2.1.2 策略和值函数第20-21页
    2.2 最小二乘时序差分算法第21-23页
        2.2.1 多步TD学习算法第21-22页
        2.2.2 多步最小二乘TD学习算法第22-23页
    2.3 Q-强化学习策略寻优算法第23-24页
    2.4 本章小结第24-25页
第三章 基于改进ELM的最小二乘时序差分算法第25-39页
    3.1 ELM机理论及改进第25-29页
        3.1.1 ELM的原理及结构第25-27页
        3.1.2 改进ELM方法第27-29页
    3.2 基于改进ELM的资格迹最小二乘时序差分策略评价第29-36页
        3.2.1 基于改进ELM-LSTD(λ)的策略评价算法第29-30页
        3.2.2 基于改进ELM-LSTD(λ)的学习预测仿真实验第30-36页
    3.4 本章小结第36-39页
第四章 基于改进ELM的递归最小二乘TD(λ)策略评价算法第39-53页
    4.1 递归最小二乘时序差分强化学习第39-41页
    4.2 基于改进ELM的递归LSTD(λ)的策略评价第41-52页
        4.2.1 基于改进ELM-RLSTD(λ)的策略评价算法第41-42页
        4.2.2 多维广义Hop-world问题及倒立摆仿真验证模型第42-45页
        4.2.3 基于改进ELM-RLSTD(λ)算法学习预测仿真结果第45-52页
    4.3 本章小结第52-53页
第五章 基于改进ELM的递归最小二乘Q(λ)算法及路径寻优第53-65页
    5.1 多步Q学习路径寻优算法第53-55页
    5.2 基于最小二乘Q(λ)路径寻优算法第55页
    5.3 基于改进ELM的递归最小二乘Q(λ)策略寻优算法第55-56页
    5.4 策略游戏(RPG)中路径寻优仿真实验第56-62页
        5.4.1 实验场景第57-58页
        5.4.2 仿真学习结果与比较第58-62页
    5.5 本章小结第62-65页
第六章 总结与展望第65-67页
    6.1 全文总结第65页
    6.2 未来展望第65-67页
参考文献第67-71页
致谢第71-73页
研究成果及发表的学术论文第73-75页
导师和作者简介第75-77页
附件第77-78页

论文共78页,点击 下载论文
上一篇:面向移动感知节点的智能小车设计与实现
下一篇:多NAO机器人通信与轨迹规划问题研究