首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于值函数估计的强化学习算法研究

摘要第1-6页
Abstract第6-9页
目录第9-18页
第一章 绪论第18-33页
   ·研究背景第18-20页
   ·选题来源第20-21页
   ·国内外研究现状第21-30页
     ·基于线性函数估计强化学习研究现状第21-24页
     ·基于核方法的强化学习研究现状第24-28页
     ·连续动作强化学习研究现状第28-30页
   ·论文研究思路、方法及内容第30-33页
     ·现有研究的不足和本文研究思路第30-31页
     ·研究方法和内容第31-33页
第二章 强化学习与值函数估计第33-59页
   ·强化学习模型第33-35页
   ·经典的强化学习算法第35-40页
     ·预测:时间差分学习第35-36页
     ·控制:Sarsa(λ)第36-37页
     ·控制:Q(λ)第37页
     ·Actor-Critic方法第37-40页
   ·强化学习值函数估计第40-42页
   ·线性值函数估计第42-54页
     ·直接梯度法第43-47页
     ·残差梯度法第47-48页
     ·最小二乘优化方法第48-52页
     ·新型时间差分学习算法第52-54页
   ·基于核方法的值函数估计第54-58页
     ·再生核Hilbert空间与表达定理第54-56页
     ·稀疏化构造字典第56-58页
   ·本章总结第58-59页
第三章 基于分段线性值函数的时间差分学习第59-75页
   ·相关工作第59-61页
   ·分段线性值函数第61-63页
     ·1-维分段线性基第61页
     ·分段线性值函数第61-62页
     ·误差界分析第62-63页
   ·基于分段线性值函数的时间差分学习算法家族第63-68页
     ·从1-维到多-维的扩展第63-65页
     ·不确定维度的状态投影第65-66页
     ·PLVF-TD学习框架第66-68页
   ·实验第68-74页
     ·Boyan链第69-70页
     ·小车爬山第70-73页
     ·迷宫第73-74页
   ·本章总结第74-75页
第四章 基于核方法的在线选择性时间差分学习第75-106页
   ·基于核方法的强化学习第76-78页
     ·基于核方法的在线强化学习要点第77-78页
   ·在线稀疏化第78-85页
     ·相关工作与动机第78-79页
     ·基于选择性集成学习的核稀疏化第79-83页
     ·基于核距离的在线稀疏化第83-85页
   ·基于核方法的选择性值函数第85-90页
     ·局部有效性与泛化能力第85-86页
     ·基于核方法的选择值函数第86-88页
     ·基于核方法的选择性值函数的性质第88-90页
   ·基于核方法的在线选择时间差分学习第90-94页
     ·基于核方法的选择性值函数的细节第90-92页
     ·OSKTD学习算法第92-94页
   ·实验第94-104页
     ·实验配置第95-97页
     ·实验结果与分析第97-104页
   ·总结第104-106页
第五章 基于核方法的连续动作Actor-Critic学习第106-117页
   ·连续动作空间问题第106-107页
   ·相关工作第107-110页
     ·离散化方法第107-108页
     ·线拟合第108-109页
     ·连续动作Actor Critic学习机第109页
     ·值梯度上升第109页
     ·动机第109-110页
   ·基于核方法的连续动作Actor-Critic学习第110-113页
     ·探索与利用第110-111页
     ·Actor第111-112页
     ·基于核方法的连续动作Actor-Critic学习第112-113页
   ·实验第113-116页
     ·实验环境—倒立摆第113-114页
     ·实验设置与结果分析第114-116页
   ·总结第116-117页
第六章 总结与展望第117-120页
   ·总结第117-118页
   ·展望第118-120页
参考文献第120-136页
简历与科研成果第136-139页
致谢第139-141页

论文共141页,点击 下载论文
上一篇:森佩尔三个文本的形式原则比较研究
下一篇:跨组织联结、资源管理与企业创新绩效--区域创新网络的调节作用