首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于高斯回归的连续空间多智能体强化学习算法研究

摘要第4-6页
Abstract第6-7页
1 绪论第10-18页
    1.1 研究背景、目的及意义第10-11页
    1.2 国内外研究现状第11-14页
    1.3 研究内容第14-15页
    1.4 论文结构第15-18页
2 多智能体强化学习的泛化与降维第18-30页
    2.1 多智能体强化学习第18-25页
        2.1.1 强化学习第18-20页
        2.1.2 多智能体系统特点第20-21页
        2.1.3 多智能体系统描述第21页
        2.1.4 多智能体强化学习典型框架和算法分析第21-25页
    2.2 泛化与降维第25-28页
        2.2.1 维数灾难与泛化问题第25-26页
        2.2.2 基于值函数的降维第26-27页
        2.2.3 基于高斯回归的泛化第27-28页
    2.3 本章小结第28-30页
3 基于高斯回归的连续空间多智能体跟踪学习第30-42页
    3.1 算法框架设计第30-33页
        3.1.1 降维的跟踪学习值函数第30-31页
        3.1.2 基于动态规划的跟踪学习框架第31-33页
    3.2 算法实现第33-36页
        3.2.1 多智能体环境下的高斯回归模型第33-34页
        3.2.2 鉴赏函数设计第34-35页
        3.2.3 基于贝叶斯主动学习的样本集调整第35-36页
        3.2.4 算法流程第36页
    3.3 算法性能分析第36-37页
        3.3.1 模型有效性第36页
        3.3.2 空间复杂度第36-37页
        3.3.3 时间复杂度第37页
    3.4 仿真实验与分析第37-41页
    3.5 本章小结第41-42页
4 改进型多智能体连续空间基于模型的跟踪学习第42-54页
    4.1 MAS MBRL-CPT算法框架设计第42-43页
    4.2 MAS MBRL-CPT算法的改进第43-45页
        4.2.1 基于高斯回归的在线策略模型第43-44页
        4.2.2 样本空间个体即时回报的迭代学习第44页
        4.2.3 基于即时策略添加样本第44页
        4.2.4 MBRL-CPT算法流程第44-45页
    4.3 算法性能分析第45-47页
        4.3.1 稳定性分析第45-46页
        4.3.2 空间复杂度第46-47页
        4.3.3 时间复杂度第47页
    4.4 仿真实验与分析第47-52页
    4.5 本章小结第52-54页
5 基于分时跟踪的连续多智能体策略学习第54-62页
    5.1 基于分时跟踪的学习框架第54-55页
    5.2 CMLBTT算法实现第55-57页
        5.2.1 交替学习的切换条件第55-56页
        5.2.2 基于高斯回归的环境模型第56-57页
        5.2.3 CMLBTT算法流程第57页
    5.3 算法性能分析第57-58页
        5.3.1 模型稳定性第57-58页
        5.3.2 空间复杂度第58页
        5.3.3 时间复杂度第58页
    5.4 仿真实验与分析第58-60页
    5.5 本章小结第60-62页
6 结论与展望第62-64页
    6.1 结论第62-63页
    6.2 展望第63-64页
参考文献第64-70页
攻读学位期间主要的研究成果目录第70-72页
致谢第72页

论文共72页,点击 下载论文
上一篇:基于PLC和触摸屏的可焊性测试仪控制系统的研制
下一篇:基于纳米材料的电化学生物传感器研究