首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于强化学习的异构多智能体区域覆盖算法研究

摘要第6-7页
Abstract第7页
第1章 绪论第10-17页
    1.1 研究背景和意义第10-11页
    1.2 国内外研究现状分析第11-13页
    1.3 研究目标第13-14页
    1.4 研究内容第14-15页
    1.5 论文组织结构第15-17页
第2章 马尔可夫决策理论预备知识第17-23页
    2.1 马尔可夫决策基本模型第17-18页
    2.2 部分可观测马尔可夫决策基本模型第18-21页
    2.3 分布式部分可观测马尔可夫决策模型第21-22页
    2.4 本章小结第22-23页
第3章 地-空多智能体模型设计第23-32页
    3.1 环境地图模型搭建第23-25页
    3.2 运动学模型搭建第25-27页
        3.2.1 地面移动车辆运动学模型第25-26页
        3.2.2 四旋翼飞行器运动学模型第26-27页
    3.3 无人驾驶地面车辆的观测模型设计第27-30页
        3.3.1 抽象的环境扫描模型第27-28页
        3.3.2 基于运动模型的最小观测器第28-30页
    3.4 无人飞行器观测模型及通讯模型设计第30-31页
        3.4.1 无人飞行器观测模型第30页
        3.4.2 无人飞行器通讯模型第30-31页
    3.5 本章小结第31-32页
第4章 POMDP算法研究第32-42页
    4.1 POMDP模型求解算法第32-34页
        4.1.1 QMDP算法第32-33页
        4.1.2 Q学习算法第33-34页
    4.2 单智能体覆盖问题研究第34-41页
        4.2.1 单智能体覆盖问题描述第35页
        4.2.2 单智能体环境覆盖实验第35-39页
        4.2.3 不同模型参数对仿真结果的影响第39-41页
    4.3 本章小结第41-42页
第5章 DEC-POMDPs算法研究及实现第42-59页
    5.1 DEC-POMDPs模型求解算法第42-44页
        5.1.1 MAOP算法第42-44页
    5.2 地面多智能体群组仿真实验第44-47页
        5.2.1 DEC-POMDPs模型搭建第45-46页
        5.2.2 仿真结果第46-47页
    5.3 忽略通讯代价的地-空多智能体系统仿真实验第47-52页
        5.3.1 DEC-POMDPs模型搭建第48-50页
        5.3.2 地-空多智能体强化学习流程第50页
        5.3.3 仿真结果第50-52页
    5.4 考虑通讯策略的地-空多智能体系统仿真实验第52-58页
        5.4.1 DEC-POMDPs模型搭建第52-54页
        5.4.2 多智能体强化学习决策框架第54-56页
        5.4.3 仿真结果第56-58页
    5.5 本章小结第58-59页
第6章 多智能体强化学习工具箱设计第59-70页
    6.1 引言第59页
    6.2 多智能体工具箱框架及主要模块第59-67页
        6.2.1 智能体模块第61-62页
        6.2.2 地图环境模块第62-63页
        6.2.3 强化学习模块第63-64页
        6.2.4 持久层模块第64-66页
        6.2.5 仿真场景模块第66-67页
        6.2.6 公用工具类函数库第67页
    6.3 可视化界面设计第67-69页
    6.4 本章小结第69-70页
总结和展望第70-72页
致谢第72-73页
参考文献第73-78页
攻读硕士学位期间的论文及科研情况第78页

论文共78页,点击 下载论文
上一篇:基于多种特征的高分辨率遥感影像阴影检测算法研究
下一篇:故障监测与诊断技术在SCADA系统中的研究与应用