摘要 | 第3-4页 |
Abstract | 第4页 |
1 绪论 | 第8-12页 |
1.1 研究背景与意义 | 第8页 |
1.2 国内外无人车控制研究现状 | 第8-10页 |
1.3 主流方法的优缺点 | 第10页 |
1.4 课题背景 | 第10页 |
1.5 本文的主要贡献和创新 | 第10-11页 |
1.6 本文的研究内容和结构 | 第11页 |
1.7 本章小结 | 第11-12页 |
2 相关知识介绍 | 第12-26页 |
2.1 引言 | 第12页 |
2.2 无人车软件模块的定义与作用 | 第12-13页 |
2.3 无人车的控制系统介绍 | 第13-15页 |
2.3.1 无人车的横向控制 | 第13-14页 |
2.3.2 无人车的纵向控制 | 第14-15页 |
2.4 强化学习介绍 | 第15-21页 |
2.4.1 强化学习的概念 | 第15-19页 |
2.4.2 监督学习与强化学习的区别 | 第19-20页 |
2.4.3 深度强化学习介绍 | 第20-21页 |
2.5 TORCS自动驾驶仿真平台介绍 | 第21-25页 |
2.5.1 平台特点 | 第22-23页 |
2.5.2 模拟器功能 | 第23-25页 |
2.6 本章小结 | 第25-26页 |
3 基于DDPG的虚拟无人车横向和纵向的联合控制 | 第26-40页 |
3.1 引言 | 第26页 |
3.2 DDPG算法介绍 | 第26-30页 |
3.2.1 基于值的深度强化学习算法的局限性 | 第26-27页 |
3.2.2 DDPG算法思想 | 第27-28页 |
3.2.3 DDPG的网络结构 | 第28页 |
3.2.4 DDPG的网络的损失函数 | 第28-29页 |
3.2.5 目标网络更新规则 | 第29-30页 |
3.2.6 探索策略 | 第30页 |
3.3 基于DDPG的虚拟无人车横向和纵向的联合控制 | 第30-34页 |
3.3.1 模型输入的特征选择与特征融合 | 第31-32页 |
3.3.2 感知噪声的添加 | 第32页 |
3.3.3 期望轨迹与期望速度的生成 | 第32-33页 |
3.3.4 奖励函数的设计 | 第33页 |
3.3.5 探索策略的设计 | 第33-34页 |
3.3.6 DDPG模型的超参数设计 | 第34页 |
3.4 实验设置 | 第34-35页 |
3.5 实验结果和分析 | 第35-39页 |
3.5.1 控制结果的评价标准 | 第35页 |
3.5.2 横向控制和纵向控制的平均奖励 | 第35页 |
3.5.3 横向控制和纵向控制的误差表现 | 第35-37页 |
3.5.4 控制效果的视觉展示 | 第37-39页 |
3.6 本章小结 | 第39-40页 |
4 基于SupervisedDDPG的虚拟无人车横向控制 | 第40-51页 |
4.1 引言 | 第40页 |
4.2 监督强化学习 | 第40-44页 |
4.2.1 人类学习与监督强化学习 | 第41页 |
4.2.2 监督Actor-Critic | 第41-43页 |
4.2.3 增益调度器 | 第43页 |
4.2.4 Actor网络更新公式 | 第43-44页 |
4.3 监督式深度确定性策略梯度(Supevised DDPG) | 第44-47页 |
4.3.1 Actor网络更新公式推导 | 第45-46页 |
4.3.2 监督器与预训练的区别 | 第46-47页 |
4.4 监督器的设计 | 第47页 |
4.5 基于Supervised DDPG的虚拟无人车横向控制 | 第47-50页 |
4.5.1 实验设置 | 第47-48页 |
4.5.2 最优平衡参数k的选取 | 第48-49页 |
4.5.3 虚拟无人车横向控制性能比较 | 第49-50页 |
4.6 本章小结 | 第50-51页 |
5 结束语 | 第51-54页 |
5.1 关于强化学习安全探索的思考 | 第51-53页 |
5.2 内容回顾与总结 | 第53-54页 |
致谢 | 第54-55页 |
参考文献 | 第55-59页 |
附录 | 第59页 |