摘要 | 第1-6页 |
Abstract | 第6-9页 |
目录 | 第9-18页 |
第一章 绪论 | 第18-33页 |
·研究背景 | 第18-20页 |
·选题来源 | 第20-21页 |
·国内外研究现状 | 第21-30页 |
·基于线性函数估计强化学习研究现状 | 第21-24页 |
·基于核方法的强化学习研究现状 | 第24-28页 |
·连续动作强化学习研究现状 | 第28-30页 |
·论文研究思路、方法及内容 | 第30-33页 |
·现有研究的不足和本文研究思路 | 第30-31页 |
·研究方法和内容 | 第31-33页 |
第二章 强化学习与值函数估计 | 第33-59页 |
·强化学习模型 | 第33-35页 |
·经典的强化学习算法 | 第35-40页 |
·预测:时间差分学习 | 第35-36页 |
·控制:Sarsa(λ) | 第36-37页 |
·控制:Q(λ) | 第37页 |
·Actor-Critic方法 | 第37-40页 |
·强化学习值函数估计 | 第40-42页 |
·线性值函数估计 | 第42-54页 |
·直接梯度法 | 第43-47页 |
·残差梯度法 | 第47-48页 |
·最小二乘优化方法 | 第48-52页 |
·新型时间差分学习算法 | 第52-54页 |
·基于核方法的值函数估计 | 第54-58页 |
·再生核Hilbert空间与表达定理 | 第54-56页 |
·稀疏化构造字典 | 第56-58页 |
·本章总结 | 第58-59页 |
第三章 基于分段线性值函数的时间差分学习 | 第59-75页 |
·相关工作 | 第59-61页 |
·分段线性值函数 | 第61-63页 |
·1-维分段线性基 | 第61页 |
·分段线性值函数 | 第61-62页 |
·误差界分析 | 第62-63页 |
·基于分段线性值函数的时间差分学习算法家族 | 第63-68页 |
·从1-维到多-维的扩展 | 第63-65页 |
·不确定维度的状态投影 | 第65-66页 |
·PLVF-TD学习框架 | 第66-68页 |
·实验 | 第68-74页 |
·Boyan链 | 第69-70页 |
·小车爬山 | 第70-73页 |
·迷宫 | 第73-74页 |
·本章总结 | 第74-75页 |
第四章 基于核方法的在线选择性时间差分学习 | 第75-106页 |
·基于核方法的强化学习 | 第76-78页 |
·基于核方法的在线强化学习要点 | 第77-78页 |
·在线稀疏化 | 第78-85页 |
·相关工作与动机 | 第78-79页 |
·基于选择性集成学习的核稀疏化 | 第79-83页 |
·基于核距离的在线稀疏化 | 第83-85页 |
·基于核方法的选择性值函数 | 第85-90页 |
·局部有效性与泛化能力 | 第85-86页 |
·基于核方法的选择值函数 | 第86-88页 |
·基于核方法的选择性值函数的性质 | 第88-90页 |
·基于核方法的在线选择时间差分学习 | 第90-94页 |
·基于核方法的选择性值函数的细节 | 第90-92页 |
·OSKTD学习算法 | 第92-94页 |
·实验 | 第94-104页 |
·实验配置 | 第95-97页 |
·实验结果与分析 | 第97-104页 |
·总结 | 第104-106页 |
第五章 基于核方法的连续动作Actor-Critic学习 | 第106-117页 |
·连续动作空间问题 | 第106-107页 |
·相关工作 | 第107-110页 |
·离散化方法 | 第107-108页 |
·线拟合 | 第108-109页 |
·连续动作Actor Critic学习机 | 第109页 |
·值梯度上升 | 第109页 |
·动机 | 第109-110页 |
·基于核方法的连续动作Actor-Critic学习 | 第110-113页 |
·探索与利用 | 第110-111页 |
·Actor | 第111-112页 |
·基于核方法的连续动作Actor-Critic学习 | 第112-113页 |
·实验 | 第113-116页 |
·实验环境—倒立摆 | 第113-114页 |
·实验设置与结果分析 | 第114-116页 |
·总结 | 第116-117页 |
第六章 总结与展望 | 第117-120页 |
·总结 | 第117-118页 |
·展望 | 第118-120页 |
参考文献 | 第120-136页 |
简历与科研成果 | 第136-139页 |
致谢 | 第139-141页 |