大数据平台计算架构及其应用研究

摘要	第4-5页
abstract	第5-6页
第一章绪论	第9-13页
1.1 研究背景和意义	第9-10页
1.2 大数据国内外研究现状	第10-11页
1.3 本文主要工作	第11-12页
1.4 论文结构	第12-13页
第二章相关背景知识介绍	第13-30页
2.1 大数据处理分析模式	第13-15页
2.1.1 离线批处理模式	第14页
2.1.2 近实时分析模式	第14-15页
2.1.3 实时计算模式	第15页
2.2 大数据处理技术研究	第15-26页
2.2.1 离线批处理系统Hadoop	第15-19页
2.2.2 流式计算系统Storm	第19-21页
2.2.3 内存计算系统Spark	第21-24页
2.2.4 三大处理技术对比分析	第24-26页
2.3 大数据处理技术安全机制研究	第26-28页
2.4 Kafka分布式消息系统	第28-29页
2.5 本章小结	第29-30页
第三章流数据处理技术和基数估计算法研究	第30-41页
3.1 大数据流处理的关键技术	第30-31页
3.2 大数据流处理平台基数估计的重要性分析	第31-32页
3.3 现有的基数估计算法	第32-40页
3.3.1 Linear Counting算法	第32-33页
3.3.2 Mincount算法	第33-35页
3.3.3 LogLog Counting算法	第35-37页
3.3.4 Hyper LogLog Counting算法	第37-39页
3.3.5 基数估计算法的比较	第39-40页
3.4 本章小结	第40-41页
第四章基于流平台的基数估计算法研究	第41-57页
4.1 实时流平台的基数估计应用模型	第41页
4.2 实时流平台的基数估计数据采集设计	第41-43页
4.3 基于Storm的Hyperloglog去重计数算法	第43-50页
4.3.1 Storm的并行化机制	第43-44页
4.3.2 基于Storm的基数估计算法并行化设计	第44-47页
4.3.3 基于Storm的基数估计算法实现	第47-50页
4.4 基于Spark Streaming的HyperLogLog去重计数算法	第50-56页
4.4.1 Spark Streaming的并行化机制	第50-51页
4.4.2 基于Spark Streaming的基数估计算法并行化设计	第51-54页
4.4.3 基于Spark Streaming的基数估计算法实现	第54-56页
4.5 本章小结	第56-57页
第五章基于流平台的基数估计算法实验与分析	第57-77页
5.1 实验平台搭建	第57-68页
5.1.1 硬件环境	第57页
5.1.2 软件环境	第57-58页
5.1.3 实验环境搭建	第58-68页
5.2 实验数据集和评价指标	第68-70页
5.2.1 实验数据集	第68-69页
5.2.2 评价指标	第69-70页
5.3 实验结果与分析	第70-76页
5.3.1 单机环境下算法的精度分析	第70-72页
5.3.2 集群环境下算法的吞吐量和时延分析	第72-76页
5.4 本章小结	第76-77页
第六章总结与展望	第77-79页
6.1 总结	第77页
6.2 工作展望	第77-79页
参考文献	第79-84页
附录1 攻读硕士学位期间撰写的论文	第84-85页
附录2 攻读硕士学位期间申请的专利	第85-86页
附录3 攻读硕士学位期间参加的科研项目	第86-87页
致谢	第87页