多智能体博弈强化学习算法及其均衡研究
摘要 | 第3-4页 |
ABSTRACT | 第4-5页 |
1 绪论 | 第8-13页 |
1.1 选题背景及研究意义 | 第8-9页 |
1.1.1 选题背景 | 第8-9页 |
1.1.2 研究意义 | 第9页 |
1.2 研究现状及发展趋势 | 第9-11页 |
1.2.1 多智能体强化学习的研究现状及发展趋势 | 第9-10页 |
1.2.2 博弈均衡的研究现状及发展趋势 | 第10-11页 |
1.3 本文研究内容和技术路线 | 第11-13页 |
1.3.1 研究内容 | 第11-12页 |
1.3.2 技术路线 | 第12-13页 |
2 相关基本理论 | 第13-23页 |
2.1 强化学习 | 第13-16页 |
2.1.1 强化学习模型与基本要素 | 第13-14页 |
2.1.2 马尔科夫决策过程概述 | 第14-16页 |
2.2 多智能体强化学习 | 第16-19页 |
2.2.1 多智能体强化学习模型 | 第16-17页 |
2.2.2 马尔科夫博弈中的多智能体强化学习 | 第17-19页 |
2.3 博弈均衡理论 | 第19-22页 |
2.3.1 纳什均衡的数学描述 | 第19-20页 |
2.3.2 纯策略博弈 | 第20页 |
2.3.3 混合策略博弈 | 第20-22页 |
2.4 小结 | 第22-23页 |
3 参数逼近的多智能体强化学习算法 | 第23-35页 |
3.1 多智能体纳什Q学习 | 第23-26页 |
3.1.1 策略迭代与时间差分学习 | 第23-25页 |
3.1.2 纳什Q学习算法 | 第25-26页 |
3.2 基于参数逼近的强化学习算法 | 第26-28页 |
3.2.1 算法改进 | 第26-27页 |
3.2.2 算法描述 | 第27-28页 |
3.3 算法的收敛性与可行性分析 | 第28-31页 |
3.3.1 算法收敛性分析 | 第28-30页 |
3.3.2 算法可行性分析 | 第30-31页 |
3.4 实验与结果分析 | 第31-34页 |
3.4.1 实验设置 | 第31-32页 |
3.4.2 结果分析 | 第32-34页 |
3.5 本章小结 | 第34-35页 |
4 基于粒子群算法求解纳什均衡 | 第35-51页 |
4.1 纳什均衡问题转化 | 第35-38页 |
4.1.1 双人策略博弈中的纳什均衡 | 第35-36页 |
4.1.2 双人策略博弈的优化问题 | 第36-38页 |
4.2 改进的粒子群算法设计思想 | 第38-44页 |
4.2.1 标准粒子群算法思想 | 第38-39页 |
4.2.2 参数的分析与修正 | 第39-41页 |
4.2.3 改进的粒子群算法步骤 | 第41-42页 |
4.2.4 数值测试 | 第42-44页 |
4.3 改进的粒子群算法求解纳什均衡 | 第44-47页 |
4.3.1 求解纳什均衡优化模型 | 第44-46页 |
4.3.2 算法描述 | 第46-47页 |
4.3.3 算法流程图 | 第47页 |
4.3.4 算法可行性分析与性能评价 | 第47页 |
4.4 仿真算例 | 第47-50页 |
4.5 本章小结 | 第50-51页 |
5 结论与展望 | 第51-53页 |
5.1 结论 | 第51页 |
5.2 展望 | 第51-53页 |
致谢 | 第53-54页 |
参考文献 | 第54-58页 |
附录 | 第58页 |
攻读硕士学位期间获奖 | 第58页 |