首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

面向强化学习的规划优化方法研究

中文摘要第1-5页
Abstract第5-10页
第一章 引言第10-16页
   ·研究背景及意义第10-11页
   ·国内外研究现状第11-13页
   ·主要创新工作第13-14页
   ·论文组织结构第14-16页
第二章 强化学习理论与算法第16-30页
   ·强化学习简介第16页
   ·强化学习原理第16-19页
     ·强化学习模型和马尔决策过程第16-18页
     ·强化学习的四要素第18-19页
   ·模型与学习、规划第19-21页
   ·完全更新与抽样更新第21-25页
   ·规划和学习的主要算法第25-29页
     ·策略迭代与值迭代算法第25-26页
     ·TD 算法第26-28页
     ·Q-Learning 算法第28页
     ·Sarsa 学习算法第28-29页
   ·本章小结第29-30页
第三章 基于拓扑序列更新的值迭代算法第30-46页
   ·值迭代和效率分析第30-32页
   ·VI-TS 算法及收敛性分析第32-38页
     ·VI-TS 算法的原理及流程第32-36页
     ·VI-TS 算法收敛性分析第36-37页
     ·VI-TS 算法的实现第37-38页
   ·实验及结果分析第38-45页
     ·实验描述第38-41页
     ·实验设置及结果分析第41-45页
   ·本章小结第45-46页
第四章 基于优先级扫描的 Dyna 结构优化算法第46-62页
   ·Dyna 结构算法和优先级扫描算法第46-50页
     ·Dyna 结构算法的框架第46-49页
     ·优先级扫描算法第49-50页
   ·Dyna-PS 算法及收敛性分析第50-56页
     ·Dyna-PS 算法原理第51-52页
     ·Dyna-PS 算法的收敛性第52-56页
   ·实验及结果分析第56-60页
     ·实验描述第56页
     ·实验设置及结果分析第56-60页
   ·本章小结第60-62页
第五章 总结与展望第62-64页
   ·工作总结第62-63页
   ·工作展望第63-64页
参考文献第64-68页
攻读硕士学位期间发表(录用)的论文及参与的科研项目第68-70页
 一、发表(录用)的论文第68页
 二、科研成果第68页
 三、参加的科研项目第68-70页
致谢第70-71页

论文共71页,点击 下载论文
上一篇:基于显著区域检测和TMBP的场景分类
下一篇:基于谱图理论的非线性流形学习算法研究