首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

非参数化值函数逼近强化学习研究

摘要第3-5页
abstract第5-7页
第1章 绪论第12-36页
    1.1 研究背景与意义第12-15页
        1.1.1 强化学习研究溯源第13-14页
        1.1.2 强化学习应用领域第14-15页
    1.2 强化学习基础第15-17页
        1.2.1 MDP建模第16页
        1.2.2 决策优化目标函数第16-17页
        1.2.3 最优策略第17页
    1.3 经典强化学习第17-24页
        1.3.1 基于模型的经典强化学习第18-20页
        1.3.2 无模型经典强化学习第20-23页
        1.3.3 强化学习研究方向第23-24页
    1.4 值函数逼近强化学习研究进展第24-34页
        1.4.1 主要研究思路第25-27页
        1.4.2 线性值函数逼近强化学习第27-29页
        1.4.3 非线性值函数逼近强化学习第29-34页
    1.5 主要研究工作及论文安排第34-36页
第2章 非参数化值函数逼近强化学习中的样本采集和基函数构建算法第36-47页
    2.1 非参数化值函数逼近强化学习第36-37页
    2.2 二级随机采样算法第37-41页
        2.2.1 一级采样第39-40页
        2.2.2 总体采样第40-41页
    2.3 trial-and-error过程第41-43页
    2.4 初始状态基函数构建算法第43-46页
        2.4.1 确定核心状态基函数第43-44页
        2.4.2 生成初始状态基函数第44-46页
    2.5 边界状态基函数构建算法第46页
    2.6 本章小结第46-47页
第3章 基于CMAC的非参数化近似策略迭代强化学习第47-64页
    3.1 NPAPIRL-CMAC算法的网络结构第47-51页
        3.1.1 Q值函数逼近器第48-51页
        3.1.2 动作选择器第51页
    3.2 Q值函数逼近器构建过程第51-53页
        3.2.1 获取泛化参数第52页
        3.2.2 构建量化编码结构第52-53页
        3.2.3 确定量化编码结构的平均学习率第53页
    3.3 Q值函数逼近器自适应调整过程第53-55页
    3.4 NPAPIRL-CMAC算法步骤第55-57页
        3.4.1 算法网络结构构建阶段第55-56页
        3.4.2 智能体自主学习阶段第56-57页
    3.5 一级倒立摆平衡控制仿真实验第57-63页
        3.5.1 实验描述第57-58页
        3.5.2 实验分析第58-63页
    3.6 本章小结第63-64页
第4章 基于状态聚类的非参数化近似广义策略迭代强化学习第64-78页
    4.1 NPAGPIRL-SC算法的网络结构第64-66页
        4.1.1 Q值函数逼近器第65-66页
        4.1.2 动作选择器第66页
    4.2 Q值函数逼近器构建过程第66-67页
    4.3 Q值函数逼近器自适应调整过程第67-68页
    4.4 NPAGPIRL-SC算法步骤第68-70页
        4.4.1 算法网络结构构建阶段第69页
        4.4.2 智能体自主学习阶段第69-70页
    4.5 一级倒立摆平衡控制仿真实验第70-77页
        4.5.1 NPAGPIRL-SC在不同离散动作集合下的实验结果第70-72页
        4.5.2 NPAGPIRL-SC在ε不同取值下的实验结果第72-73页
        4.5.3 NPAGPIRL-SC算法下倒立摆的典型学习过程第73-75页
        4.5.4 与典型近似策略迭代强化学习算法的对比第75-77页
    4.6 本章小结第77-78页
第5章 非参数化近似策略迭代并行强化学习第78-88页
    5.1 并行强化学习第78-79页
    5.2 NPAPIRL-P算法的网络结构第79-80页
    5.3 NPAPIRL-P算法的学习步骤第80-82页
    5.4 一级倒立摆平衡控制仿真实验第82-87页
        5.4.1 评价指标第82-83页
        5.4.2 实验结果分析第83-87页
    5.5 本章小结第87-88页
第6章 基于Dyna框架的非参数化近似策略迭代强化学习第88-105页
    6.1 NPAPIRL-Dyna算法的网络结构第88-90页
    6.2 环境估计模型构建过程第90-93页
        6.2.1 环境估计模型第90-91页
        6.2.2 状态转移模型B的构建过程第91-92页
        6.2.3 边界状态转移模型B′的构建过程第92-93页
    6.3 算法自适应调整过程第93-95页
        6.3.1 新增结构第93-94页
        6.3.2 合并结构第94-95页
        6.3.3 调整参数第95页
    6.4 基于环境估计模型的规划过程第95-98页
        6.4.1 Dyna框架第95-96页
        6.4.2 NPAPIRL-Dyna算法的规划过程第96-98页
    6.5 NPAPIRL-Dyna算法步骤第98-100页
        6.5.1 算法网络结构构建阶段第98-99页
        6.5.2 智能体自主学习阶段第99-100页
    6.6 一级倒立摆平衡控制仿真实验第100-104页
        6.6.1 对实验结果的分析第100-102页
        6.6.2 对规划过程的分析第102-104页
    6.7 本章小结第104-105页
第7章 结论与展望第105-107页
    7.1 结论第105-106页
    7.2 展望第106-107页
致谢第107-108页
参考文献第108-115页
攻读学位期间的研究成果第115页

论文共115页,点击 下载论文
上一篇:Modification and Biomedical Applications of Nano-structual Butterfly Wings
下一篇:中国小农户经营规模变迁与生产效率研究