基于值函数估计的强化学习算法研究

摘要	第1-6页
Abstract	第6-9页
目录	第9-18页
第一章绪论	第18-33页
·研究背景	第18-20页
·选题来源	第20-21页
·国内外研究现状	第21-30页
·基于线性函数估计强化学习研究现状	第21-24页
·基于核方法的强化学习研究现状	第24-28页
·连续动作强化学习研究现状	第28-30页
·论文研究思路、方法及内容	第30-33页
·现有研究的不足和本文研究思路	第30-31页
·研究方法和内容	第31-33页
第二章强化学习与值函数估计	第33-59页
·强化学习模型	第33-35页
·经典的强化学习算法	第35-40页
·预测：时间差分学习	第35-36页
·控制：Sarsa(λ)	第36-37页
·控制：Q(λ)	第37页
·Actor-Critic方法	第37-40页
·强化学习值函数估计	第40-42页
·线性值函数估计	第42-54页
·直接梯度法	第43-47页
·残差梯度法	第47-48页
·最小二乘优化方法	第48-52页
·新型时间差分学习算法	第52-54页
·基于核方法的值函数估计	第54-58页
·再生核Hilbert空间与表达定理	第54-56页
·稀疏化构造字典	第56-58页
·本章总结	第58-59页
第三章基于分段线性值函数的时间差分学习	第59-75页
·相关工作	第59-61页
·分段线性值函数	第61-63页
·1-维分段线性基	第61页
·分段线性值函数	第61-62页
·误差界分析	第62-63页
·基于分段线性值函数的时间差分学习算法家族	第63-68页
·从1-维到多-维的扩展	第63-65页
·不确定维度的状态投影	第65-66页
·PLVF-TD学习框架	第66-68页
·实验	第68-74页
·Boyan链	第69-70页
·小车爬山	第70-73页
·迷宫	第73-74页
·本章总结	第74-75页
第四章基于核方法的在线选择性时间差分学习	第75-106页
·基于核方法的强化学习	第76-78页
·基于核方法的在线强化学习要点	第77-78页
·在线稀疏化	第78-85页
·相关工作与动机	第78-79页
·基于选择性集成学习的核稀疏化	第79-83页
·基于核距离的在线稀疏化	第83-85页
·基于核方法的选择性值函数	第85-90页
·局部有效性与泛化能力	第85-86页
·基于核方法的选择值函数	第86-88页
·基于核方法的选择性值函数的性质	第88-90页
·基于核方法的在线选择时间差分学习	第90-94页
·基于核方法的选择性值函数的细节	第90-92页
·OSKTD学习算法	第92-94页
·实验	第94-104页
·实验配置	第95-97页
·实验结果与分析	第97-104页
·总结	第104-106页
第五章基于核方法的连续动作Actor-Critic学习	第106-117页
·连续动作空间问题	第106-107页
·相关工作	第107-110页
·离散化方法	第107-108页
·线拟合	第108-109页
·连续动作Actor Critic学习机	第109页
·值梯度上升	第109页
·动机	第109-110页
·基于核方法的连续动作Actor-Critic学习	第110-113页
·探索与利用	第110-111页
·Actor	第111-112页
·基于核方法的连续动作Actor-Critic学习	第112-113页
·实验	第113-116页
·实验环境—倒立摆	第113-114页
·实验设置与结果分析	第114-116页
·总结	第116-117页
第六章总结与展望	第117-120页
·总结	第117-118页
·展望	第118-120页
参考文献	第120-136页
简历与科研成果	第136-139页
致谢	第139-141页