| 摘要 | 第1-6页 |
| Abstract | 第6-9页 |
| 目录 | 第9-18页 |
| 第一章 绪论 | 第18-33页 |
| ·研究背景 | 第18-20页 |
| ·选题来源 | 第20-21页 |
| ·国内外研究现状 | 第21-30页 |
| ·基于线性函数估计强化学习研究现状 | 第21-24页 |
| ·基于核方法的强化学习研究现状 | 第24-28页 |
| ·连续动作强化学习研究现状 | 第28-30页 |
| ·论文研究思路、方法及内容 | 第30-33页 |
| ·现有研究的不足和本文研究思路 | 第30-31页 |
| ·研究方法和内容 | 第31-33页 |
| 第二章 强化学习与值函数估计 | 第33-59页 |
| ·强化学习模型 | 第33-35页 |
| ·经典的强化学习算法 | 第35-40页 |
| ·预测:时间差分学习 | 第35-36页 |
| ·控制:Sarsa(λ) | 第36-37页 |
| ·控制:Q(λ) | 第37页 |
| ·Actor-Critic方法 | 第37-40页 |
| ·强化学习值函数估计 | 第40-42页 |
| ·线性值函数估计 | 第42-54页 |
| ·直接梯度法 | 第43-47页 |
| ·残差梯度法 | 第47-48页 |
| ·最小二乘优化方法 | 第48-52页 |
| ·新型时间差分学习算法 | 第52-54页 |
| ·基于核方法的值函数估计 | 第54-58页 |
| ·再生核Hilbert空间与表达定理 | 第54-56页 |
| ·稀疏化构造字典 | 第56-58页 |
| ·本章总结 | 第58-59页 |
| 第三章 基于分段线性值函数的时间差分学习 | 第59-75页 |
| ·相关工作 | 第59-61页 |
| ·分段线性值函数 | 第61-63页 |
| ·1-维分段线性基 | 第61页 |
| ·分段线性值函数 | 第61-62页 |
| ·误差界分析 | 第62-63页 |
| ·基于分段线性值函数的时间差分学习算法家族 | 第63-68页 |
| ·从1-维到多-维的扩展 | 第63-65页 |
| ·不确定维度的状态投影 | 第65-66页 |
| ·PLVF-TD学习框架 | 第66-68页 |
| ·实验 | 第68-74页 |
| ·Boyan链 | 第69-70页 |
| ·小车爬山 | 第70-73页 |
| ·迷宫 | 第73-74页 |
| ·本章总结 | 第74-75页 |
| 第四章 基于核方法的在线选择性时间差分学习 | 第75-106页 |
| ·基于核方法的强化学习 | 第76-78页 |
| ·基于核方法的在线强化学习要点 | 第77-78页 |
| ·在线稀疏化 | 第78-85页 |
| ·相关工作与动机 | 第78-79页 |
| ·基于选择性集成学习的核稀疏化 | 第79-83页 |
| ·基于核距离的在线稀疏化 | 第83-85页 |
| ·基于核方法的选择性值函数 | 第85-90页 |
| ·局部有效性与泛化能力 | 第85-86页 |
| ·基于核方法的选择值函数 | 第86-88页 |
| ·基于核方法的选择性值函数的性质 | 第88-90页 |
| ·基于核方法的在线选择时间差分学习 | 第90-94页 |
| ·基于核方法的选择性值函数的细节 | 第90-92页 |
| ·OSKTD学习算法 | 第92-94页 |
| ·实验 | 第94-104页 |
| ·实验配置 | 第95-97页 |
| ·实验结果与分析 | 第97-104页 |
| ·总结 | 第104-106页 |
| 第五章 基于核方法的连续动作Actor-Critic学习 | 第106-117页 |
| ·连续动作空间问题 | 第106-107页 |
| ·相关工作 | 第107-110页 |
| ·离散化方法 | 第107-108页 |
| ·线拟合 | 第108-109页 |
| ·连续动作Actor Critic学习机 | 第109页 |
| ·值梯度上升 | 第109页 |
| ·动机 | 第109-110页 |
| ·基于核方法的连续动作Actor-Critic学习 | 第110-113页 |
| ·探索与利用 | 第110-111页 |
| ·Actor | 第111-112页 |
| ·基于核方法的连续动作Actor-Critic学习 | 第112-113页 |
| ·实验 | 第113-116页 |
| ·实验环境—倒立摆 | 第113-114页 |
| ·实验设置与结果分析 | 第114-116页 |
| ·总结 | 第116-117页 |
| 第六章 总结与展望 | 第117-120页 |
| ·总结 | 第117-118页 |
| ·展望 | 第118-120页 |
| 参考文献 | 第120-136页 |
| 简历与科研成果 | 第136-139页 |
| 致谢 | 第139-141页 |