首页--航空、航天论文--航空论文--各类型航空器论文--无人驾驶飞机论文

连续时间MDPs增强学习方法及其在无人机控制中的应用

摘要第10-12页
ABSTRACT第12-13页
第一章 绪论第14-30页
    1.1 问题的提出第14-20页
        1.1.1 研究背景第14-18页
        1.1.2 理论背景第18-20页
    1.2 研究现状第20-25页
        1.2.1 不确定性模型方法研究现状第20-22页
        1.2.2 开环最优控制方法研究现状第22-23页
        1.2.3 闭环最优控制方法研究现状第23-24页
        1.2.4 增强学习和Markov决策过程研究现状第24-25页
    1.3 论文研究内容及创新点第25-28页
        1.3.1 研究内容第25-27页
        1.3.2 创新点第27-28页
    1.4 论文组织结构第28-30页
第二章 基于性能势的Markov决策过程分析第30-52页
    2.1 引言第30页
    2.2 Markov随机过程基本理论第30-35页
        2.2.1 Markov链第31-33页
        2.2.2 Markov过程第33-35页
    2.3 连续时间Markov决策过程第35-44页
        2.3.1 数学定义第35-36页
        2.3.2 栅格上智能体追逃问题第36-44页
    2.4 性能势的观点第44-51页
        2.4.1 Markov链的性能势第44-47页
        2.4.2 Markov过程的性能势第47-51页
    2.5 小结第51-52页
第三章 连续时间Markov决策过程策略迭代方法第52-79页
    3.1 引言第52页
    3.2 策略迭代第52-59页
        3.2.1 模型定义第52-54页
        3.2.2 算法第54-57页
        3.2.3 与MDPs策略迭代比较第57-59页
    3.3 双车博弈问题第59-66页
        3.3.1 双车博弈定义与解形式第59-60页
        3.3.2 微分对策解第60-66页
    3.4 CTMDPs方法在“双车博弈”中的应用第66-78页
        3.4.1 状态空间,动作集,回报函数第67-68页
        3.4.2 Q阵的构造第68-69页
        3.4.3 仿真试验第69-76页
        3.4.4 结果讨论第76-78页
    3.5 小结第78-79页
第四章 CTMDPs增强学习方法第79-100页
    4.1 引言第79-80页
    4.2 基于样本的性能势估计第80-90页
        4.2.1 CTMDPs性能势第80-81页
        4.2.2 性能势L步估计算法第81-85页
        4.2.3 性能势TD估计算法第85-87页
        4.2.4 性能势估计仿真实验第87-90页
    4.3 CTMDPs-RL算法第90-94页
        4.3.1 算法设计第90-93页
        4.3.2“利用”与“探索”第93-94页
    4.4 倒立摆问题第94-98页
        4.4.1 问题描述第94-96页
        4.4.2 利用CTMDPs-RL算法求解倒立摆问题第96-98页
    4.5 小结第98-100页
第五章 CTMDPs-RL算法在无人机控制中的应用第100-121页
    5.1 引言第100页
    5.2 求解框架第100-105页
        5.2.1 线性状态转移模型第102-103页
        5.2.2 非线性状态转移模型第103-105页
    5.3 控制策略求解第105-120页
        5.3.1 轨迹跟踪问题求解第106-115页
        5.3.2 定速控制与定高控制问题求解第115-120页
    5.4 小结第120-121页
第六章 总结与展望第121-124页
    6.1 论文工作总结第121-122页
    6.2 下一步研究方向第122-124页
致谢第124-125页
参考文献第125-135页
作者在学期间取得的学术成果第135页

论文共135页,点击 下载论文
上一篇:连续变量量子密码安全性研究
下一篇:对外开放和新常态视角下我国货币政策转型研究