首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

连续空间强化学习研究

摘要第5-7页
abstract第7-8页
第一章 绪论第16-29页
    1.1 研究背景与意义第16-18页
    1.2 国内外研究现状第18-26页
        1.2.1 强化学习泛化性研究现状第18-20页
        1.2.2 强化学习高效性研究现状第20-22页
        1.2.3 强化学习收敛性研究现状第22-23页
        1.2.4 空间自适应表示研究现状第23-24页
        1.2.5 步长自适应调整研究现状第24-26页
    1.3 本文工作与创新第26-27页
    1.4 本文结构与安排第27-29页
第二章 连续空间强化学习研究基础第29-42页
    2.1 强化学习数学模型第29-30页
    2.2 强化学习探索策略第30-32页
        2.2.1 Softmax策略第31页
        2.2.2 (?)-greedy策略第31页
        2.2.3 传统高斯策略第31-32页
    2.3 时域差值学习算法第32-35页
        2.3.1 线性TD(λ) 算法第32-34页
        2.3.2 线性Sarsa(λ) 算法第34-35页
        2.3.3 线性Q(λ) 算法第35页
    2.4 Actor-Critic学习算法第35-40页
        2.4.1 策略梯度定理第35-37页
        2.4.2 线性AC算法第37-40页
    2.5 重要收敛结果与理论第40-41页
        2.5.1 线性TD(λ) 算法收敛结果第40页
        2.5.2 两时间尺度随机逼近理论第40-41页
    2.6 本章小结第41-42页
第三章 增量最近邻TD学习算法第42-59页
    3.1 研究动机第42-43页
    3.2 局部加权学习第43页
    3.3 增量最近邻TD学习第43-50页
        3.3.1 增量最近邻TD学习框架第43-47页
        3.3.2 在线稀疏化条件定义第47-48页
        3.3.3 加权向量具体定义第48-49页
        3.3.4 资格迹矩阵迭代更新第49-50页
    3.4 性能分析第50-51页
    3.5 仿真研究第51-57页
        3.5.1 仿真问题与设置第51-52页
        3.5.2 仿真结果与分析第52-57页
    3.6 本章小结第57-59页
第四章 基于核的RLSTD学习算法第59-85页
    4.1 研究动机第59-60页
    4.2 LSTD算法第60-62页
    4.3 正则化OSKRLSTD算法第62-74页
        4.3.1 OSKRLSTD-L_2算法第62-65页
        4.3.2 OSKRLSTD-L_1算法第65-69页
        4.3.3 仿真研究第69-74页
            4.3.3.1 仿真问题与设置第70-71页
            4.3.3.2 仿真结果与分析第71-74页
    4.4 正则化OSMKRLSTD算法第74-84页
        4.4.1 多特征LSTD算法第75页
        4.4.2 OSMKRLSTD-L_2算法第75-82页
        4.4.3 仿真研究第82-84页
            4.4.3.1 仿真问题与设置第82页
            4.4.3.2 仿真结果与分析第82-84页
    4.5 本章小结第84-85页
第五章 对称扰动AC学习算法第85-112页
    5.1 研究动机第85-86页
    5.2 传统高斯策略问题分析第86-88页
    5.3 对称扰动采样AC算法第88-98页
        5.3.1 SSAC算法框架第88-90页
        5.3.2 性能分析第90-95页
            5.3.2.1 复杂度分析第90-91页
            5.3.2.2 收敛性分析第91-95页
        5.3.3 仿真研究第95-98页
            5.3.3.1 仿真问题与设置第95-96页
            5.3.3.2 仿真结果与分析第96-98页
    5.4 对称扰动兼容AC算法第98-111页
        5.4.1 (?)-贪婪高斯策略第98-100页
        5.4.2 兼容AC算法第100-105页
            5.4.2.1 RLSEGAC算法框架第101-103页
            5.4.2.2 SEGAC算法框架第103-105页
        5.4.3 性能分析第105-106页
            5.4.3.1 策略改进分析第105-106页
            5.4.3.2 收敛性分析第106页
        5.4.4 仿真研究第106-111页
            5.4.4.1 仿真问题与设置第106-108页
            5.4.4.2 仿真结果与分析第108-111页
    5.5 本章小结第111-112页
第六章 TD学习向量步长自适应算法第112-123页
    6.1 研究动机第112-113页
    6.2 自适应向量步长TD学习第113-116页
        6.2.1 RLSTD算法重新解读第113-114页
        6.2.2 向量步长自适应算法第114-116页
    6.3 性能分析第116-118页
    6.4 仿真研究第118-122页
        6.4.1 仿真问题与设置第118-120页
        6.4.2 仿真结果与分析第120-122页
    6.5 本章小结第122-123页
第七章 总结与展望第123-125页
    7.1 全文工作总结第123-124页
    7.2 后续工作展望第124-125页
致谢第125-126页
参考文献第126-139页
攻读博士学位期间取得的成果第139-140页

论文共140页,点击 下载论文
上一篇:量子安全通信协议理论研究
下一篇:光纤/石墨烯复合光波导特性研究与器件实现