首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于交替跟踪的分布式多智能体合作学习算法研究

摘要第4-6页
Abstract第6-7页
1 绪论第10-18页
    1.1 研究背景、目的及意义第10-11页
    1.2 国内外研究现状第11-15页
        1.2.1 维数灾问题第11-14页
        1.2.2 信度分配及收敛性第14-15页
    1.3 研究内容第15-16页
    1.4 论文结构第16-18页
2 基于新型个体奖励的多智能体最佳响应算法第18-28页
    2.1 多智能体强化学习基本概念第18-21页
        2.1.1 单智能体强化学习第18-20页
        2.1.2 多智能体强化学习第20-21页
    2.2 分布式多智能体强化学习第21-24页
        2.2.1 分布式多智能体强化学习特点第21-22页
        2.2.2 分布式多智能体强化学习框架描述第22-23页
        2.2.3 分布式多智能体强化学习存在的挑战第23-24页
    2.3 基于新型个体奖励的最佳响应算法第24-27页
        2.3.1 基于适应性的新型个体奖励及值函数定义第24-26页
        2.3.2 降维的最佳响应算法第26-27页
    2.4 小结第27-28页
3 分布式多智能体强化学习交替跟踪框架第28-40页
    3.1 交替跟踪框架与收敛性证明第28-32页
        3.1.1 交替跟踪框架及其特点第28-30页
        3.1.2 交替跟踪框架下多智能体强化学习的收敛性证明第30-32页
        3.1.3 交替跟踪下的切换原则第32页
    3.2 完全合作式多智能体强化学习第32-34页
        3.2.1 多智能体完全合作博弈第33页
        3.2.2 BRQL-TT算法描述第33-34页
    3.3 仿真实验与分析第34-39页
        3.3.1 仿真环境的建立第34-35页
        3.3.2 仿真结果及分析第35-39页
    3.4 小结第39-40页
4 交替跟踪环境下的多智能体信度分配第40-48页
    4.1 合作式多智能体强化学习信度分配第40-44页
        4.1.1 强化学习信度分配问题第40-42页
        4.1.2 基于交替学习框架的合作式多智能体信度分配第42-43页
        4.1.3 个体奖励未知的多智能体合作学习算法第43-44页
    4.2 仿真实验与分析第44-47页
        4.2.1 仿真环境的建立第44页
        4.2.2 仿真结果及分析第44-47页
    4.3 小结第47-48页
5 分布式多智能体两阶段适应性学习第48-55页
    5.1 两阶段适应性学习第48-51页
        5.1.1 适应环境学习第48-49页
        5.1.2 交替学习实现智能体间相互适应第49-50页
        5.1.3 TSAL算法描述第50-51页
    5.2 仿真实验和分析第51-54页
        5.2.1 仿真环境的建立第51-52页
        5.2.2 仿真结果及分析第52-54页
    5.3 小结第54-55页
6 结论与展望第55-58页
    6.1 结论第55-56页
    6.2 展望第56-58页
参考文献第58-64页
攻读学位期间主要的研究成果第64-65页
致谢第65页

论文共65页,点击 下载论文
上一篇:基于案例推理的PID控制器参数认知整定方法
下一篇:状态转移算法研究及其在锌净化过程中的应用