首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

强化学习问题中的正则化最小二乘策略评价算法的研究

学位论文数据集第5-6页
摘要第6-8页
ABSTRACT第8-10页
第一章 绪论第17-39页
    1.1 课题来源第17页
    1.2 课题背景第17-19页
    1.3 策略评价算法研究及其发展第19-29页
        1.3.1 策略评价算法第19-21页
        1.3.2 值函数逼近问题第21-23页
        1.3.3 时域差分算法第23-25页
        1.3.4 离策略收敛一阶策略评价算法第25-27页
        1.3.5 最小二乘策略评价算法第27-29页
    1.4 策略评价算法中的正则化第29-33页
        1.4.1 参数正则化第29-31页
        1.4.2 邻近算法和ADMM第31-32页
        1.4.3 正则化技术在策略评价算法研究中的应用第32-33页
    1.5 强化学习中应用的benchmark问题第33-36页
        1.5.1 20状态Markov链问题第34-35页
        1.5.2 Barid离策略反例问题第35页
        1.5.3 小车爬山问题第35-36页
        1.5.4 倒立摆问题第36页
    1.6 论文选题的立论、目的和意义及研究内容第36-39页
        1.6.1 论文选题的立论、目的和意义第36-37页
        1.6.2 论文的主要研究内容及技术方案第37-39页
第二章 带有梯度修正作用的核最小二乘时域差分算法第39-59页
    2.1 引言第39-40页
    2.2 带有梯度修正作用的最小二乘时域差分第40-44页
        2.2.1 目标函数第40-41页
        2.2.2 带有梯度修正作用的最小二乘时域差分第41-44页
    2.3 带有梯度修正作用的核最小二乘时域差分及核选择策略第44-49页
        2.3.1 带有梯度修正作用的核最小二乘时域差分第44-46页
        2.3.2 基于ALD的核函数自动选择策略第46-47页
        2.3.3 基于KLS-TDC的策略迭代第47-49页
    2.4 数值实验与分析第49-56页
        2.4.1 在策略学习性能的测试第49-52页
        2.4.2 离策略学习性能的测试第52-54页
        2.4.3 学习控制性能的测试第54-56页
    2.5 本章结论第56-59页
第三章 带有梯度修正作用的递推最小二乘时域差分及扩展第59-83页
    3.1 引言第59-60页
    3.2 带有梯度修正作用的递推最小二乘时域差分第60-70页
        3.2.1 正则化LS-TDC第60-62页
        3.2.2 带有资格迹的RC(λ)算法第62-67页
        3.2.3 对离策略问题的扩展形式第67-69页
        3.2.4 RC及LS-TDC的收敛性分析第69-70页
    3.3 在线l_2-正则化RC算法第70-74页
        3.3.1 在线l_2-正则化RC第70-73页
        3.3.2 在线l_2-正则化RC的收敛性分析第73-74页
    3.4 数值实验与分析第74-82页
        3.4.1 RC的策略评价性能测试第74-78页
        3.4.2 RGQ的学习控制性能测试第78-79页
        3.4.3 RRC与FRRC性能的测试第79-82页
    3.5 本章结论第82-83页
第四章 基于嵌套优化的特征选择策略评价方法第83-101页
    4.1 引言第83-84页
    4.2 基于嵌套优化的特征选择策略评价方法第84-91页
        4.2.1 目标函数第84-86页
        4.2.2 RC迭代校正第86-87页
        4.2.3 基于ADMM的FPE步骤优化第87-90页
        4.2.4 在线l_1-RC算法及扩展第90-91页
    4.3 l_1-RC的收敛性分析第91-94页
    4.4 数值实验与分析第94-99页
        4.4.1 策略评价性能的测试第94-98页
        4.4.2 学习控制性能的测试第98-99页
    4.5 本章结论第99-101页
第五章 总结和展望第101-103页
    5.1 总结第101-102页
    5.2 后续工作展望第102-103页
参考文献第103-109页
致谢第109-111页
研究成果及发表的学术论文目录第111-113页
作者和导师简介第113-115页
附件第115-116页

论文共116页,点击 下载论文
上一篇:数论中几个同余恒等式问题的研究
下一篇:非诉执行行政案件司法审查标准研究