网络数据分布估算算法研究及数据分析
摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第11-14页 |
1.1 课题研究背景 | 第11-12页 |
1.2 国内外研究现状及意义 | 第12页 |
1.3 论文结构 | 第12-14页 |
第二章 相关技术 | 第14-29页 |
2.1 网络流量数据 | 第14页 |
2.2 HTTP概述 | 第14-15页 |
2.3 HDFS文件系统 | 第15-17页 |
2.4 Spark分布式框架 | 第17-21页 |
2.4.1 Spark协议簇 | 第17-18页 |
2.4.2 Spark核心概念 | 第18-20页 |
2.4.3 Spark编程模型 | 第20-21页 |
2.4.4 Spark基本架构 | 第21页 |
2.5 网站关系图 | 第21-22页 |
2.6 关键算法 | 第22-28页 |
2.6.1 最大似然估计法 | 第22-23页 |
2.6.2 遗传算法 | 第23-28页 |
2.7 本章小结 | 第28-29页 |
第三章 倾斜数据的分布模型评估 | 第29-35页 |
3.1 偏态分布 | 第29页 |
3.2 帕累托分布 | 第29-30页 |
3.3 Zipf分布 | 第30-34页 |
3.3.1 Zipf分布的介绍 | 第30-31页 |
3.3.2 拟合网站点击量 | 第31-33页 |
3.3.3 拟合恐怖袭击死亡人数 | 第33-34页 |
3.4 本章小结 | 第34-35页 |
第四章 基于并行遗传算法的DGX模型实现 | 第35-44页 |
4.1 模型概述 | 第35-36页 |
4.2 模型建立 | 第36-40页 |
4.2.1 统计词频 | 第36页 |
4.2.2 似然函数 | 第36-37页 |
4.2.3 遗传算法求最值 | 第37-40页 |
4.3 模型评估 | 第40-43页 |
4.3.1 性能评估 | 第40页 |
4.3.2 拟合效果评估 | 第40-43页 |
4.4 本章小结 | 第43-44页 |
第五章 基于DGX模型的网络流量分析 | 第44-52页 |
5.1 网络流量数据概述 | 第44页 |
5.2 数据来源 | 第44页 |
5.3 网站综合浏览量 | 第44-47页 |
5.4 用户请求数 | 第47-49页 |
5.5 重传报文数 | 第49-51页 |
5.6 本章小结 | 第51-52页 |
第六章 基于DGX模型的网站关系图分析 | 第52-64页 |
6.1 网站关系图 | 第52页 |
6.2 建立网站关系图 | 第52-56页 |
6.2.1 亲密度定义 | 第52-53页 |
6.2.2 亲密度计算流程 | 第53-56页 |
6.2.3 网站关系图 | 第56页 |
6.3 网站关系图的分析 | 第56-63页 |
6.3.1 节点的权重 | 第56-58页 |
6.3.2 节点的出度 | 第58-60页 |
6.3.3 边的权重 | 第60-61页 |
6.3.4 网站共享用户数 | 第61-63页 |
6.4 本章小结 | 第63-64页 |
第七章 总结与展望 | 第64-66页 |
参考文献 | 第66-68页 |
致谢 | 第68-69页 |
攻读学位期间发表的学术论文目录 | 第69页 |