摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
符号对照表 | 第12-13页 |
缩略语对照表 | 第13-18页 |
第一章 绪论 | 第18-28页 |
1.1 研究背景与意义 | 第18-20页 |
1.2 多智能体深度强化学习的研究进展 | 第20-24页 |
1.2.1 发展历程与现状 | 第20-22页 |
1.2.2 应用场景 | 第22-24页 |
1.3 课题来源及主要贡献 | 第24-25页 |
1.4 论文结构与章节安排 | 第25-28页 |
第二章 多智能体深度强化学习简介 | 第28-46页 |
2.1 机器学习与强化学习 | 第28-33页 |
2.2 深度学习 | 第33-37页 |
2.3 多智能体深度强化学习 | 第37-41页 |
2.3.1 深度强化学习 | 第37-39页 |
2.3.2 多智能体系统与多智能体强化学习 | 第39-41页 |
2.4 博弈论与强化学习 | 第41-42页 |
2.5 计算经济学与市场模型 | 第42-43页 |
2.6 本章小结 | 第43-46页 |
第三章 定制化数据挖掘与智能体的生成式模型构建 | 第46-58页 |
3.1 定制化数据挖掘与推荐系统 | 第46-48页 |
3.2 集中式多智能体深度强化学习框架 | 第48-50页 |
3.3 用户模式的生成式模型 | 第50-51页 |
3.4 市场模型与价格框架 | 第51-53页 |
3.5 基于强化学习的用户模式学习 | 第53-54页 |
3.6 实验仿真与分析 | 第54-56页 |
3.7 本章小结 | 第56-58页 |
第四章 同类智能体的社交行为学习方法 | 第58-70页 |
4.1 用户模式及社交特征 | 第58-60页 |
4.2 同类智能体的市场模型 | 第60-63页 |
4.2.1 囚徒窘境 | 第61-62页 |
4.2.2 古诺模型 | 第62-63页 |
4.3 基于强化学习的社交行为学习 | 第63-65页 |
4.4 实验仿真与分析 | 第65-69页 |
4.5 本章小结 | 第69-70页 |
第五章 异类智能体的交互与动态资源分配算法 | 第70-86页 |
5.1 异类多智能体系统和垄断型市场 | 第70-72页 |
5.2 异类多智能体强化学习 | 第72-75页 |
5.2.1 认知用户行为 | 第73-74页 |
5.2.2 授权用户行为 | 第74-75页 |
5.3 基于垄断型市场环境的强化学习 | 第75-79页 |
5.3.1 认知用户学习与二阶概率Q学习 | 第76-78页 |
5.3.2 授权用户学习与双向强化学习 | 第78-79页 |
5.4 实验仿真与分析 | 第79-84页 |
5.5 本章小结 | 第84-86页 |
第六章 复杂多智能体系统应用:社交车辆种群 | 第86-102页 |
6.1 社交车辆种群架构 | 第86-90页 |
6.1.1 U2V通信 | 第88页 |
6.1.2 U2I通信 | 第88-89页 |
6.1.3 V2V通信 | 第89-90页 |
6.2 基于社交车辆种群的方法和技术 | 第90-92页 |
6.2.1 隐私保护大数据挖掘 | 第90-91页 |
6.2.2 深度强化学习 | 第91-92页 |
6.2.3 亚云计算 | 第92页 |
6.3 基于SVS环境的多摄像头联动车辆追踪方法 | 第92-101页 |
6.3.1 基于ColorFasterR-CNN的车辆检测方法 | 第93-94页 |
6.3.2 基于卡尔曼滤波器的速度估计方法 | 第94-95页 |
6.3.3 基于深度学习的数据融合 | 第95页 |
6.3.4 实验仿真与分析 | 第95-97页 |
6.3.5 定制化车辆检测方法 | 第97-101页 |
6.4 本章小结 | 第101-102页 |
第七章 总结与展望 | 第102-106页 |
参考文献 | 第106-116页 |
致谢 | 第116-118页 |
作者简介 | 第118-120页 |