首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于深度强化学习的虚拟无人车控制研究

摘要第3-4页
Abstract第4页
1 绪论第8-12页
    1.1 研究背景与意义第8页
    1.2 国内外无人车控制研究现状第8-10页
    1.3 主流方法的优缺点第10页
    1.4 课题背景第10页
    1.5 本文的主要贡献和创新第10-11页
    1.6 本文的研究内容和结构第11页
    1.7 本章小结第11-12页
2 相关知识介绍第12-26页
    2.1 引言第12页
    2.2 无人车软件模块的定义与作用第12-13页
    2.3 无人车的控制系统介绍第13-15页
        2.3.1 无人车的横向控制第13-14页
        2.3.2 无人车的纵向控制第14-15页
    2.4 强化学习介绍第15-21页
        2.4.1 强化学习的概念第15-19页
        2.4.2 监督学习与强化学习的区别第19-20页
        2.4.3 深度强化学习介绍第20-21页
    2.5 TORCS自动驾驶仿真平台介绍第21-25页
        2.5.1 平台特点第22-23页
        2.5.2 模拟器功能第23-25页
    2.6 本章小结第25-26页
3 基于DDPG的虚拟无人车横向和纵向的联合控制第26-40页
    3.1 引言第26页
    3.2 DDPG算法介绍第26-30页
        3.2.1 基于值的深度强化学习算法的局限性第26-27页
        3.2.2 DDPG算法思想第27-28页
        3.2.3 DDPG的网络结构第28页
        3.2.4 DDPG的网络的损失函数第28-29页
        3.2.5 目标网络更新规则第29-30页
        3.2.6 探索策略第30页
    3.3 基于DDPG的虚拟无人车横向和纵向的联合控制第30-34页
        3.3.1 模型输入的特征选择与特征融合第31-32页
        3.3.2 感知噪声的添加第32页
        3.3.3 期望轨迹与期望速度的生成第32-33页
        3.3.4 奖励函数的设计第33页
        3.3.5 探索策略的设计第33-34页
        3.3.6 DDPG模型的超参数设计第34页
    3.4 实验设置第34-35页
    3.5 实验结果和分析第35-39页
        3.5.1 控制结果的评价标准第35页
        3.5.2 横向控制和纵向控制的平均奖励第35页
        3.5.3 横向控制和纵向控制的误差表现第35-37页
        3.5.4 控制效果的视觉展示第37-39页
    3.6 本章小结第39-40页
4 基于SupervisedDDPG的虚拟无人车横向控制第40-51页
    4.1 引言第40页
    4.2 监督强化学习第40-44页
        4.2.1 人类学习与监督强化学习第41页
        4.2.2 监督Actor-Critic第41-43页
        4.2.3 增益调度器第43页
        4.2.4 Actor网络更新公式第43-44页
    4.3 监督式深度确定性策略梯度(Supevised DDPG)第44-47页
        4.3.1 Actor网络更新公式推导第45-46页
        4.3.2 监督器与预训练的区别第46-47页
    4.4 监督器的设计第47页
    4.5 基于Supervised DDPG的虚拟无人车横向控制第47-50页
        4.5.1 实验设置第47-48页
        4.5.2 最优平衡参数k的选取第48-49页
        4.5.3 虚拟无人车横向控制性能比较第49-50页
    4.6 本章小结第50-51页
5 结束语第51-54页
    5.1 关于强化学习安全探索的思考第51-53页
    5.2 内容回顾与总结第53-54页
致谢第54-55页
参考文献第55-59页
附录第59页

论文共59页,点击 下载论文
上一篇:移动云计算环境下基于多用户协作的资源共享机制研究
下一篇:湘江水业集团总部岗位评价改进方案研究