首页--航空、航天论文--航空论文--各类型航空器论文--无人驾驶飞机论文

专家知识辅助的强化学习研究及其在无人机路径规划中的应用

致谢第5-7页
摘要第7-9页
Abstract第9-11页
缩略语第19-20页
第1章 绪论第20-34页
    1.1 研究背景与意义第20-22页
    1.2 强化学习研究现状第22-30页
        1.2.1 常规强化学习方法研究现状第23-25页
        1.2.2 结合专家知识的强化学习研究现状第25-28页
        1.2.3 国内RL中TL的研究现状第28-29页
        1.2.4 强化学习应用研究现状第29-30页
        1.2.5 强化学习及其迁移研究存在的问题第30页
    1.3 本文主要工作及内容安排第30-34页
        1.3.1 本文研究工作及贡献第31-32页
        1.3.2 本文章节安排第32-34页
第2章 利用批量递归最小二乘的自然Actor-Critic算法第34-50页
    2.1 引言第34-35页
    2.2 自然Actor-Critic结构第35-38页
        2.2.1 强化学习基础及函数近似第35-36页
        2.2.2 Actor-Critic强化学习结构第36-37页
        2.2.3 自然梯度Actor-Critic第37-38页
    2.3 基于批量递归最小二乘的NAC第38-42页
        2.3.1 批量递归最小二乘评估器第38-41页
        2.3.2 NAC-BRLS算法的完整流程第41-42页
    2.4 仿真实验第42-47页
        2.4.1 山地车上坡问题第42-43页
        2.4.2 仿真效果及分析第43-47页
        2.4.3 批量数的讨论第47页
    2.5 本章小结第47-50页
第3章 值函数近似中结合对称性的强化学习第50-64页
    3.1 引言第50-51页
    3.2 对称强化学习第51-56页
        3.2.1 对称特殊性第51-53页
        3.2.2 对称基函数第53-54页
        3.2.3 收敛性分析第54-55页
        3.2.4 S-LSPI算法的完整流程第55-56页
    3.3 仿真实验第56-62页
        3.3.1 走链条问题第56-58页
        3.3.2 倒立摆平衡问题第58-62页
    3.4 本章小结第62-64页
第4章 动态运动基元与卷积神经网络结合的示教轨迹分类器第64-76页
    4.1 引言第64-65页
    4.2 DMP与CNN结合的分类器第65-70页
        4.2.1 DMP预处理第66-68页
        4.2.2 DMP参数的CNN处理第68-70页
    4.3 仿真实验第70-73页
    4.4 本章小结第73-76页
第5章 基于智能体空间迁移示教知识辅助的强化学习第76-88页
    5.1 引言第76-77页
    5.2 基于智能体空间的示教知识迁移第77-82页
        5.2.1 示教学习第77-78页
        5.2.2 报酬重塑第78-79页
        5.2.3 目标状态指示器第79-80页
        5.2.4 学习报酬塑形函数第80-82页
    5.3 仿真实验第82-87页
        5.3.1 源任务第82-84页
        5.3.2 目标任务第84页
        5.3.3 迁移对比第84-87页
    5.4 本章小结第87-88页
第6章 基于任务关系映射迁移示教知识辅助的强化学习第88-108页
    6.1 引言第88页
    6.2 基于任务映射的知识迁移第88-105页
        6.2.1 任务间关系映射第88-89页
        6.2.2 启发探索过程第89-92页
        6.2.3 仿真实验1第92-96页
        6.2.4 初始化状态值函数第96-99页
        6.2.5 仿真实验2第99-105页
    6.3 本章小结第105-108页
第7章 示教轨迹迁移辅助的强化学习无人机路径规划第108-126页
    7.1 引言第108页
    7.2 基于示教轨迹泛化的势函数构造第108-114页
        7.2.1 任务设定第108-110页
        7.2.2 轨迹泛化第110-113页
        7.2.3 势函数塑造第113-114页
    7.3 实验设计第114-115页
    7.4 仿真效果对比第115-125页
        7.4.1 二维泛化第117-121页
        7.4.2 三维泛化第121-125页
    7.5 本章小结第125-126页
第8章 总结与展望第126-130页
    8.1 论文总结第126-127页
    8.2 未来工作展望第127-130页
参考文献第130-142页
作者简历第142页
攻读博士学位期间主要的研究成果第142页

论文共142页,点击 下载论文
上一篇:骨骼肌收缩的多尺度研究
下一篇:挠电智能结构的振动控制与能量采集研究