面向强化学习的规划优化方法研究

中文摘要	第1-5页
Abstract	第5-10页
第一章引言	第10-16页
·研究背景及意义	第10-11页
·国内外研究现状	第11-13页
·主要创新工作	第13-14页
·论文组织结构	第14-16页
第二章强化学习理论与算法	第16-30页
·强化学习简介	第16页
·强化学习原理	第16-19页
·强化学习模型和马尔决策过程	第16-18页
·强化学习的四要素	第18-19页
·模型与学习、规划	第19-21页
·完全更新与抽样更新	第21-25页
·规划和学习的主要算法	第25-29页
·策略迭代与值迭代算法	第25-26页
·TD 算法	第26-28页
·Q-Learning 算法	第28页
·Sarsa 学习算法	第28-29页
·本章小结	第29-30页
第三章基于拓扑序列更新的值迭代算法	第30-46页
·值迭代和效率分析	第30-32页
·VI-TS 算法及收敛性分析	第32-38页
·VI-TS 算法的原理及流程	第32-36页
·VI-TS 算法收敛性分析	第36-37页
·VI-TS 算法的实现	第37-38页
·实验及结果分析	第38-45页
·实验描述	第38-41页
·实验设置及结果分析	第41-45页
·本章小结	第45-46页
第四章基于优先级扫描的 Dyna 结构优化算法	第46-62页
·Dyna 结构算法和优先级扫描算法	第46-50页
·Dyna 结构算法的框架	第46-49页
·优先级扫描算法	第49-50页
·Dyna-PS 算法及收敛性分析	第50-56页
·Dyna-PS 算法原理	第51-52页
·Dyna-PS 算法的收敛性	第52-56页
·实验及结果分析	第56-60页
·实验描述	第56页
·实验设置及结果分析	第56-60页
·本章小结	第60-62页
第五章总结与展望	第62-64页
·工作总结	第62-63页
·工作展望	第63-64页
参考文献	第64-68页
攻读硕士学位期间发表(录用)的论文及参与的科研项目	第68-70页
一、发表（录用）的论文	第68页
二、科研成果	第68页
三、参加的科研项目	第68-70页
致谢	第70-71页