中文摘要 | 第1-5页 |
Abstract | 第5-10页 |
第一章 引言 | 第10-16页 |
·研究背景及意义 | 第10-11页 |
·国内外研究现状 | 第11-13页 |
·主要创新工作 | 第13-14页 |
·论文组织结构 | 第14-16页 |
第二章 强化学习理论与算法 | 第16-30页 |
·强化学习简介 | 第16页 |
·强化学习原理 | 第16-19页 |
·强化学习模型和马尔决策过程 | 第16-18页 |
·强化学习的四要素 | 第18-19页 |
·模型与学习、规划 | 第19-21页 |
·完全更新与抽样更新 | 第21-25页 |
·规划和学习的主要算法 | 第25-29页 |
·策略迭代与值迭代算法 | 第25-26页 |
·TD 算法 | 第26-28页 |
·Q-Learning 算法 | 第28页 |
·Sarsa 学习算法 | 第28-29页 |
·本章小结 | 第29-30页 |
第三章 基于拓扑序列更新的值迭代算法 | 第30-46页 |
·值迭代和效率分析 | 第30-32页 |
·VI-TS 算法及收敛性分析 | 第32-38页 |
·VI-TS 算法的原理及流程 | 第32-36页 |
·VI-TS 算法收敛性分析 | 第36-37页 |
·VI-TS 算法的实现 | 第37-38页 |
·实验及结果分析 | 第38-45页 |
·实验描述 | 第38-41页 |
·实验设置及结果分析 | 第41-45页 |
·本章小结 | 第45-46页 |
第四章 基于优先级扫描的 Dyna 结构优化算法 | 第46-62页 |
·Dyna 结构算法和优先级扫描算法 | 第46-50页 |
·Dyna 结构算法的框架 | 第46-49页 |
·优先级扫描算法 | 第49-50页 |
·Dyna-PS 算法及收敛性分析 | 第50-56页 |
·Dyna-PS 算法原理 | 第51-52页 |
·Dyna-PS 算法的收敛性 | 第52-56页 |
·实验及结果分析 | 第56-60页 |
·实验描述 | 第56页 |
·实验设置及结果分析 | 第56-60页 |
·本章小结 | 第60-62页 |
第五章 总结与展望 | 第62-64页 |
·工作总结 | 第62-63页 |
·工作展望 | 第63-64页 |
参考文献 | 第64-68页 |
攻读硕士学位期间发表(录用)的论文及参与的科研项目 | 第68-70页 |
一、发表(录用)的论文 | 第68页 |
二、科研成果 | 第68页 |
三、参加的科研项目 | 第68-70页 |
致谢 | 第70-71页 |