首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

强化学习迁移中的源任务选择研究

摘要第4-6页
Abstract第6-7页
第一章 绪论第13-31页
    1.1 研究背景第13-16页
    1.2 国内外研究现状第16-27页
        1.2.1 单源强化学习迁移场景第17-20页
        1.2.2 多源强化学习迁移场景第20-24页
        1.2.3 新的强化学习迁移场景第24-27页
    1.3 研究内容、方法和思路第27-31页
        1.3.1 现有研究的不足第27-28页
        1.3.2 本文的研究方法和具体内容第28-31页
第二章 强化学习迁移的背景知识第31-47页
    2.1 强化学习第31-41页
        2.1.1 模型和基本概念第31-35页
        2.1.2 动态规划方法第35-36页
        2.1.3 蒙特卡洛方法第36-38页
        2.1.4 时间差分学习第38-39页
        2.1.5 资格跟踪第39-41页
    2.2 强化学习迁移第41-47页
        2.2.1 强化学习迁移的框架第41-42页
        2.2.2 强化学习迁移的方法第42-44页
        2.2.3 强化学习迁移的评价指标第44-47页
第三章 有限MDP间的距离度量第47-69页
    3.1 引言第47-48页
    3.2 背景知识第48-49页
    3.3 衡量两个MDP间距离的度量第49-56页
        3.3.1 衡量不同MDP中状态间的距离第49-53页
        3.3.2 基于豪斯多夫度量的方法第53页
        3.3.3 基于康托洛维奇度量的方法第53-56页
    3.4 知识迁移方法第56-59页
        3.4.1 带权重的迁移第56-58页
        3.4.2 状态直接迁移第58-59页
    3.5 实验第59-66页
    3.6 本章小结第66-69页
第四章 视频强化学习任务的特征学习与迁移性能预测第69-85页
    4.1 引言第69-70页
    4.2 背景知识和相关工作第70-72页
        4.2.1 强化学习任务第70-71页
        4.2.2 迁移学习场景第71页
        4.2.3 相关工作第71-72页
    4.3 预测迁移性能第72-75页
        4.3.1 问题形式化和训练数据第73页
        4.3.2 通过深度神经网络预测迁移性能第73-75页
    4.4 实验第75-82页
        4.4.1 迷宫领域第76-79页
        4.4.2 吃豆人领域第79-82页
    4.5 本章小结第82-85页
第五章 面向对象强化学习任务的自动任务序列构造第85-105页
    5.1 引言第85-87页
    5.2 背景知识和相关工作第87-91页
        5.2.1 强化学习第87页
        5.2.2 面向对象的表示方法第87-88页
        5.2.3 强化学习中的课程学习第88-89页
        5.2.4 相关工作第89-91页
    5.3 源任务创建第91-94页
        5.3.1 移动初始状态第91-92页
        5.3.2 改变对象集合第92-93页
        5.3.3 缩减环境空间第93-94页
    5.4 任务相似度和迁移潜能第94-96页
        5.4.1 只使用移动初始状态算子第95-96页
        5.4.2 只使用改变对象集合算子第96页
        5.4.3 其他情况第96页
    5.5 迁移任务序列构建第96-99页
        5.5.1 确定任务迁移顺序第97-98页
        5.5.2 构建课程第98-99页
    5.6 实验第99-103页
        5.6.1 实验设置第99-100页
        5.6.2 实验结果第100-103页
    5.7 本章小结第103-105页
第六章 总结与展望第105-109页
    6.1 总结第105-107页
    6.2 展望第107-109页
参考文献第109-129页
简历与科研成果第129-131页
致谢第131-133页

论文共133页,点击 下载论文
上一篇:继电保护设备状态检修辅助决策系统设计与实现
下一篇:工业板料自动测长剪裁控制系统的研究与设计