摘要 | 第4-5页 |
abstract | 第5-6页 |
第一章 绪论 | 第9-13页 |
1.1 研究背景和意义 | 第9-10页 |
1.2 大数据国内外研究现状 | 第10-11页 |
1.3 本文主要工作 | 第11-12页 |
1.4 论文结构 | 第12-13页 |
第二章 相关背景知识介绍 | 第13-30页 |
2.1 大数据处理分析模式 | 第13-15页 |
2.1.1 离线批处理模式 | 第14页 |
2.1.2 近实时分析模式 | 第14-15页 |
2.1.3 实时计算模式 | 第15页 |
2.2 大数据处理技术研究 | 第15-26页 |
2.2.1 离线批处理系统Hadoop | 第15-19页 |
2.2.2 流式计算系统Storm | 第19-21页 |
2.2.3 内存计算系统Spark | 第21-24页 |
2.2.4 三大处理技术对比分析 | 第24-26页 |
2.3 大数据处理技术安全机制研究 | 第26-28页 |
2.4 Kafka分布式消息系统 | 第28-29页 |
2.5 本章小结 | 第29-30页 |
第三章 流数据处理技术和基数估计算法研究 | 第30-41页 |
3.1 大数据流处理的关键技术 | 第30-31页 |
3.2 大数据流处理平台基数估计的重要性分析 | 第31-32页 |
3.3 现有的基数估计算法 | 第32-40页 |
3.3.1 Linear Counting算法 | 第32-33页 |
3.3.2 Mincount算法 | 第33-35页 |
3.3.3 LogLog Counting算法 | 第35-37页 |
3.3.4 Hyper LogLog Counting算法 | 第37-39页 |
3.3.5 基数估计算法的比较 | 第39-40页 |
3.4 本章小结 | 第40-41页 |
第四章 基于流平台的基数估计算法研究 | 第41-57页 |
4.1 实时流平台的基数估计应用模型 | 第41页 |
4.2 实时流平台的基数估计数据采集设计 | 第41-43页 |
4.3 基于Storm的Hyperloglog去重计数算法 | 第43-50页 |
4.3.1 Storm的并行化机制 | 第43-44页 |
4.3.2 基于Storm的基数估计算法并行化设计 | 第44-47页 |
4.3.3 基于Storm的基数估计算法实现 | 第47-50页 |
4.4 基于Spark Streaming的HyperLogLog去重计数算法 | 第50-56页 |
4.4.1 Spark Streaming的并行化机制 | 第50-51页 |
4.4.2 基于Spark Streaming的基数估计算法并行化设计 | 第51-54页 |
4.4.3 基于Spark Streaming的基数估计算法实现 | 第54-56页 |
4.5 本章小结 | 第56-57页 |
第五章 基于流平台的基数估计算法实验与分析 | 第57-77页 |
5.1 实验平台搭建 | 第57-68页 |
5.1.1 硬件环境 | 第57页 |
5.1.2 软件环境 | 第57-58页 |
5.1.3 实验环境搭建 | 第58-68页 |
5.2 实验数据集和评价指标 | 第68-70页 |
5.2.1 实验数据集 | 第68-69页 |
5.2.2 评价指标 | 第69-70页 |
5.3 实验结果与分析 | 第70-76页 |
5.3.1 单机环境下算法的精度分析 | 第70-72页 |
5.3.2 集群环境下算法的吞吐量和时延分析 | 第72-76页 |
5.4 本章小结 | 第76-77页 |
第六章 总结与展望 | 第77-79页 |
6.1 总结 | 第77页 |
6.2 工作展望 | 第77-79页 |
参考文献 | 第79-84页 |
附录1 攻读硕士学位期间撰写的论文 | 第84-85页 |
附录2 攻读硕士学位期间申请的专利 | 第85-86页 |
附录3 攻读硕士学位期间参加的科研项目 | 第86-87页 |
致谢 | 第87页 |