首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

强化学习样本效率理论研究

摘要第5-7页
ABSTRACT第7-8页
第1章 绪论第17-25页
    1.1 引言第17-20页
    1.2 强化学习样本效率研究现状与存在的问题第20-22页
    1.3 本文的主要工作第22-23页
    1.4 本文的组织结构第23-24页
    1.5 本章小结第24-25页
第2章 背景知识介绍第25-41页
    2.1 强化学习问题定义第25-27页
    2.2 强化学习基本算法第27-29页
    2.3 强化学习的探索策略第29-33页
        2.3.1 随机探索策略第30-31页
        2.3.2 系统性探索策略第31-33页
    2.4 强化学习样本效率的理论研究第33-38页
        2.4.1 早期的算法收敛性研究第34-35页
        2.4.2 强化学习PAC-MDP理论第35-37页
        2.4.3 其他相关理论工作第37-38页
    2.5 已有样本效率理论的主要缺陷第38-40页
    2.6 本章小结第40-41页
第3章 停更样本复杂度与谨慎度逐增的乐观原则第41-67页
    3.1 研究背景第42-43页
    3.2 PAC-MDP理论与R-MAX、V-MAX算法第43-46页
    3.3 停更样本复杂度第46-49页
    3.4 谨慎度逐增的乐观原则(ICO原则)第49-56页
        3.4.1 谨慎度逐增R-MAX算法(ICR)第50-52页
        3.4.2 ICR算法样本效率理论分析第52-54页
        3.4.3 ICR算法参数设置第54-55页
        3.4.4 谨慎度逐增V-MAX算法(ICV)第55-56页
    3.5 实验研究第56-65页
        3.5.1 测试问题第56-58页
        3.5.2 性能指标第58-60页
        3.5.3 探索策略性能测试第60-63页
        3.5.4 关于停更概率的实验第63-65页
    3.6 本章小结第65-67页
第4章 强化学习成功概率理论分析第67-95页
    4.1 研究背景第68-70页
    4.2 强化学习成功概率分析框架第70-74页
        4.2.1 成功概率定义与基本数学性质第70-71页
        4.2.2 成功概率与各因素间的依赖关系及基本分析流程第71-72页
        4.2.3 成功概率分析的应用方法第72-73页
        4.2.4 成功概率分析与PAC-MDP分析的比较第73-74页
    4.3 链式MDP的成功概率分析第74-87页
        4.3.1 链式MDP第74-76页
        4.3.2 支配策略及价值函数〈V~л〉第76-79页
        4.3.3 原型算法,访问次数〈N(s,a)〉及〈N_(s,a,s')〉,以及遍历事件E_trav~л第79-82页
        4.3.4 由估计价值〈V~л〉到л-成功事件第82-84页
        4.3.5 成功概率P~л、P~*的计算第84-87页
    4.4 实验研究第87-93页
        4.4.1 链式MDP上的实验第87-90页
        4.4.2 在迷宫MDP上的应用第90-93页
    4.5 本章小结第93-95页
第5章 强化学习价值估计的偏态第95-114页
    5.1 研究背景第95-97页
    5.2 偏态与对数正态分布第97-98页
    5.3 一般MDP下状态价值估计的对数正态性第98-104页
        5.3.1 分解至归一化单回报Markov链第99页
        5.3.2 进一步分解至路径状态价值第99-101页
        5.3.3 路径状态价值的对数正态性第101-104页
        5.3.4 状态价值估计的对数正态性第104页
    5.4 估计价值偏态对学习的不利影响及应对措施第104-108页
        5.4.1 状态价值估计的偏态方向第104-106页
        5.4.2 状态价值估计的偏态尺度第106-108页
        5.4.3 应对措施汇总第108页
    5.5 实验研究第108-112页
        5.5.1 链式MDP上的实验第108-111页
        5.5.2 迷宫MDP上的实验第111-112页
    5.6 本章小结第112-114页
第6章 总结与展望第114-118页
    6.1 工作总结第114-116页
    6.2 未来展望第116-118页
参考文献第118-127页
致谢第127-128页
在读期间发表的学术论文与取得的研究成果第128页

论文共128页,点击 下载论文
上一篇:供应链金融对中小企业绩效影响的实证研究
下一篇:我国高等院校本科阶段贫困学生资助模式研究