首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

一类基于Stackelberg博弈的多智能体强化学习算法

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第10-15页
    1.1 研究背景和意义第10-11页
    1.2 多智能体强化学习研究现状第11-12页
    1.3 认知无线电研究现状第12-14页
    1.4 论文结构安排第14-15页
第二章 强化学习的理论基础第15-27页
    2.1 单智能体强化学习第15-18页
        2.1.1 马尔科夫决策过程(Markov Decision Process,MDP)第16-17页
        2.1.2 单智能体Q学习第17-18页
    2.2 多智能体强化学习(Multi-agent Reinforcement Learning, MARL)第18-20页
    2.3 多智能体强化学习算法第20-21页
    2.4 纳什Q学习第21-23页
    2.5 迁移学习第23-26页
    2.6 本章小结第26-27页
第三章 基于Stackelberg博弈的多智能体强化学习算法第27-35页
    3.1 系统建模第27-28页
    3.2 Stackelberg Q学习回报函数第28-29页
    3.3 Stackelberg Q值第29页
    3.4 Stackelberg Q-learning算法设计第29-31页
    3.5 Stackelberg Q-learning with VFT算法第31-34页
    3.6 本章小结第34-35页
第四章 Stackelberg Q学习在认知无线电中的应用第35-52页
    4.1 认知无线电基础第35-40页
        4.1.1 认知无线电定义第35页
        4.1.2 认知无线电历史第35-37页
        4.1.3 认知无线电框架第37页
        4.1.4 智能性与灵活性第37-38页
        4.1.5 强化学习在认知无线电中的应用第38-40页
    4.2 Stackelberg Q在认知无线电中的应用第40-43页
        4.2.1 实验说明第40-42页
        4.2.2 仿真实验第42-43页
    4.3 结果分析第43-50页
        4.3.1 纳什Q学习算法性能第43-45页
        4.3.2 Stackelberg Q学习算法性能第45-48页
        4.3.3 收敛性第48页
        4.3.4 调节参数对智能体性能的影响第48-49页
        4.3.5 Stackelberg Q learning with VTF算法性能第49-50页
    4.4 本章小结第50-52页
第五章 总结与展望第52-54页
    5.1 总结第52-53页
    5.2 展望第53-54页
参考文献第54-60页
致谢第60-61页
攻读硕士学位期间发表的论文第61-62页

论文共62页,点击 下载论文
上一篇:37例男性原发性胆汁性肝硬化患者临床特征分析
下一篇:IT外包服务中PMP模式的应用研究