基于强化学习的D2D智能组网
摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第10-16页 |
1.1 研究背景 | 第10-11页 |
1.2 研究内容 | 第11页 |
1.3 强化学习介绍 | 第11-12页 |
1.4 强化学习研究现状 | 第12-13页 |
1.5 论文结构 | 第13-16页 |
第二章 强化学习理论基础 | 第16-30页 |
2.1 强化学习的基本要素与分类 | 第16-17页 |
2.2 强化学习的数学模型 | 第17-19页 |
2.3 强化学习的经典算法 | 第19-25页 |
2.3.1 蒙特卡罗方法 | 第19-20页 |
2.3.2 时间差分方法 | 第20-21页 |
2.3.3 值函数近似 | 第21-22页 |
2.3.4 策略梯度 | 第22-25页 |
2.4 反向传播与梯度下降 | 第25-30页 |
第三章 基于神经网络的AHC强化学习算法 | 第30-50页 |
3.1 D2D场景建模 | 第30-32页 |
3.2 算法设计 | 第32-39页 |
3.2.1 输入模块 | 第34页 |
3.2.2 ASN结构 | 第34-35页 |
3.2.3 ACN结构 | 第35-36页 |
3.2.4 随机动作单元 | 第36-37页 |
3.2.5 奖励函数 | 第37-39页 |
3.3 算法详细流程 | 第39页 |
3.4 算法仿真 | 第39-50页 |
3.4.1 仿真环境搭建 | 第41-43页 |
3.4.2 仿真参数设置 | 第43-45页 |
3.4.3 仿真结果 | 第45-50页 |
第四章 K-means聚类输入的Q学习算法 | 第50-62页 |
4.1 K-means和K-means++ | 第50-53页 |
4.1.1 K-means | 第50-52页 |
4.1.2 K-means++ | 第52-53页 |
4.2 算法设计 | 第53-57页 |
4.2.1 输入模块 | 第54-55页 |
4.2.2 Q值函数估计网络 | 第55-56页 |
4.2.3 随机动作单元 | 第56-57页 |
4.2.4 奖励函数的设计 | 第57页 |
4.3 算法详细流程 | 第57-58页 |
4.4 算法仿真 | 第58-62页 |
第五章 无人机实验平台 | 第62-78页 |
5.1 硬件平台介绍 | 第62-66页 |
5.1.1 大疆M100 | 第63-64页 |
5.1.2 树莓派 | 第64-65页 |
5.1.3 双频无线网卡 | 第65页 |
5.1.4 GPS/北斗模块 | 第65-66页 |
5.2 软件架构设计 | 第66-73页 |
5.2.1 GPS分发软件设计 | 第67-71页 |
5.2.2 中心控制软件设计 | 第71-73页 |
5.3 室内仿真 | 第73-75页 |
5.4 外场实验 | 第75-78页 |
第六章 总结和展望 | 第78-80页 |
6.1 论文工作总结 | 第78页 |
6.2 展望 | 第78-80页 |
参考文献 | 第80-84页 |
致谢 | 第84页 |