摘要 | 第4-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第12-20页 |
1.1 研究背景及意义 | 第12-14页 |
1.2 国内外研究现状 | 第14-18页 |
1.3 本文主要工作 | 第18-19页 |
1.4 论文组织架构 | 第19-20页 |
第二章 相关理论及技术原理 | 第20-40页 |
2.1 强化学习基础 | 第20-26页 |
2.1.1 强化学习简介与马尔科夫决策过程 | 第20-23页 |
2.1.2 动态规划类方法 | 第23-26页 |
2.2 值函数近似以及策略梯度 | 第26-34页 |
2.2.1 值函数近似与深度Q网络 | 第26-29页 |
2.2.2 策略梯度与随机策略梯度 | 第29-33页 |
2.2.3 Actor Critic框架 | 第33-34页 |
2.3 强化学习中的探索与利用问题 | 第34-36页 |
2.4 深度学习简介 | 第36-39页 |
2.4.1 人工神经网络简介 | 第37-38页 |
2.4.2 深度神经网络简介 | 第38-39页 |
2.4.3 深度强化学习简介 | 第39页 |
2.5 本章小结 | 第39-40页 |
第三章 基于连续动作空间控制任务的强化学习算法 | 第40-48页 |
3.1 问题描述 | 第40-41页 |
3.2 TRPO算法和PPO算法简介 | 第41页 |
3.3 高斯策略以及边界效应 | 第41-43页 |
3.4 基于逻辑高斯策略的TRPO算法与PPO算法 | 第43-45页 |
3.4.1 逻辑高斯策略 | 第43页 |
3.4.2 基于逻辑高斯策略的TRPO算法与PPO算法 | 第43-45页 |
3.5 模型结构与详细参数设置 | 第45-46页 |
3.6 逻辑高斯策略与高斯策略对比 | 第46-47页 |
3.7 本章小结 | 第47-48页 |
第四章 实验结果及分析 | 第48-55页 |
4.1 实验环境简介 | 第48页 |
4.2 基于传统控制任务的实验 | 第48-50页 |
4.2.1 任务及实验设置说明 | 第48-49页 |
4.2.2 实验结果分析 | 第49-50页 |
4.3 基于多关节于动控制任务的实验 | 第50-54页 |
4.3.1 任务及实验设置说明 | 第50-52页 |
4.3.2 实验结果分析 | 第52-54页 |
4.4 本章小结 | 第54-55页 |
总结与展望 | 第55-56页 |
参考文献 | 第56-60页 |
攻读学位期间发表论文 | 第60-62页 |
致谢 | 第62页 |