首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--自动控制理论论文

基于MADDPG算法的多智能体协同控制研究

摘要第4-5页
abstract第5页
1 绪论第8-14页
    1.1 课题研究背景第8-9页
    1.2 课题研究目的与意义第9-10页
    1.3 相关知识第10-12页
        1.3.1 深度学习研究相关知识第10-11页
        1.3.2 强化学习研究相关知识第11-12页
        1.3.3 深度强化学习概述第12页
    1.4 论文主要研究内容和框架第12-14页
2 深度强化学习算法第14-29页
    2.1 卷积神经网络第14-19页
        2.1.1 卷积层第14-15页
        2.1.2 池化层第15-16页
        2.1.3 激活函数第16-19页
    2.2 马尔科夫决策过程(MDP)第19-20页
    2.3 Q-Learning算法第20-22页
    2.4 actor-critic框架第22-23页
    2.5 DQN算法第23-25页
    2.6 DPG算法简介第25-26页
    2.7 DDPG算法简介第26页
    2.8 PPO算法简介第26-29页
3 基于DDPG算法的单个智能体控制第29-46页
    3.1 传统的工业机器人控制第29-35页
        3.1.1 伺服系统第29-30页
        3.1.2 D-H模型第30-32页
        3.1.3 实验室机械手平台第32-33页
        3.1.4 机械手臂的UI界面第33-35页
    3.2 Gym环境平台第35-36页
        3.2.1 Gym安装第35-36页
        3.2.2 自主添加Gym新环境第36页
    3.3 MuJoCo仿真环境第36-39页
        3.3.1 MoJoCo 安装第36-37页
        3.3.2 XML模型编写第37-38页
        3.3.3 机械臂模型设计第38-39页
    3.4 DDPG算法接口第39-46页
        3.4.1 实验硬件环境介绍第39-40页
        3.4.2 实验与网络结构设计第40-42页
        3.4.3 输入状态空间设计第42-43页
        3.4.4 奖励函数设计第43-44页
        3.4.5 实验结果与分析第44-46页
4 基于MADDPG算法的多个智能体协同控制第46-54页
    4.1 多智能体系统(Multi Agent System,MAS)第46-47页
    4.2 MADDPG算法第47-48页
        4.2.1 多智能体actor-critic框架第47-48页
    4.3 多智能体策略第48-50页
    4.4 MADDPG算法流程第50-51页
    4.5 实验配置第51-54页
        4.5.1 实验环境第51-52页
        4.5.2 网络设计第52-54页
5 实验结果与分析第54-55页
6 总结与展望第55-57页
    6.1 研究总结第55页
    6.2 未来展望第55-57页
参考文献第57-60页
致谢第60页

论文共60页,点击 下载论文
上一篇:用摄影技巧展现园林空间美的研究
下一篇:摄影作品在平面设计中的应用研究