首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

MDP距离度量在强化学习迁移中的应用

摘要第4-5页
Abstract第5页
第一章 引言第10-16页
    1.1 研究背景第10页
    1.2 马尔可夫决策过程第10-11页
    1.3 强化学习第11-13页
    1.4 迁移学习和强化学习迁移第13-14页
    1.5 MDP距离度量第14页
    1.6 本文组织第14-16页
第二章 背景知识第16-39页
    2.1 MDP的研究综述和分析第16-25页
        2.1.1 MDP的定义及性质第16页
        2.1.2 MDP的最优策略第16-17页
        2.1.3 离散状态MDP收敛性证明第17-20页
        2.1.4 连续状态MDP收敛性证明第20-25页
    2.2 强化学习第25-34页
    2.3 迁移学习第34-39页
        2.3.1 单源任务迁移第35-36页
        2.3.2 多源任务迁移第36-39页
第三章 概率状态距离度量第39-48页
    3.1 Kantorovich距离第41-46页
        3.1.1 问题的提出第41-43页
        3.1.2 K距离的提出第43-45页
        3.1.3 其他距离度量第45-46页
    3.2 概率状态距离度量第46页
    3.3 Bisimulation划分第46-48页
第四章 MDP距离度量及有效性说明第48-63页
    4.1 相同MDP中状态距离度量第48-52页
    4.2 不同MDP中状态距离度量第52-54页
    4.3 MDP度量的建立第54-58页
    4.4 度量性质证明第58-63页
第五章 多源强化学习迁移第63-78页
    5.1 知识迁移第63-65页
    5.2 MDP度量实验第65-72页
        5.2.1 等价度量第65-70页
        5.2.2 不等价度量第70-72页
    5.3 强化学习迁移实验第72-78页
第六章 总结与展望第78-81页
    6.1 总结第78-79页
    6.2 展望第79-81页
参考文献第81-86页
简历与科研成果第86-87页
致谢第87-88页

论文共88页,点击 下载论文
上一篇:日本公司法转让受限股份制度研究
下一篇:关联交易中控制股东诚信义务法律制度研究