MapReduce上在线聚集函数的应用研究
摘要 | 第6-7页 |
ABSTRACT | 第7页 |
第1章 绪论 | 第8-10页 |
1.1 本论文的背景和意义 | 第8-9页 |
1.2 本论文的结构 | 第9-10页 |
第2章 背景知识 | 第10-24页 |
2.1 MAPREDUCE | 第10-11页 |
2.2 HADOOP | 第11-18页 |
2.2.0 优缺点 | 第11-12页 |
2.2.1 存储框架 | 第12-14页 |
2.2.1.1 体系结构 | 第12-14页 |
2.2.2 计算框架 | 第14-16页 |
2.2.3 RPC通信 | 第16-17页 |
2.2.4 研究现状 | 第17-18页 |
2.3 HOP | 第18-19页 |
2.3.1 管道思想 | 第18-19页 |
2.3.2 Map输出粒度 | 第19页 |
2.3.3 中间结果 | 第19页 |
2.4 HBASE | 第19-22页 |
2.4.1 HBase数据模型 | 第20-21页 |
2.4.2 HBase系统框架 | 第21-22页 |
2.5 流数据 | 第22页 |
2.6 在线聚集 | 第22-23页 |
2.7 依赖项目 | 第23-24页 |
第3章 系统描述 | 第24-42页 |
3.1 编程模型 | 第24-27页 |
3.1.1 编程模型 | 第25-26页 |
3.1.2 与HOP的对比 | 第26-27页 |
3.2 困难及解决方法 | 第27-30页 |
3.2.1 数据传输与保存 | 第27页 |
3.2.2 Map、Reduce的输出粒度 | 第27-28页 |
3.2.3 内存占用 | 第28页 |
3.2.4 容错 | 第28页 |
3.2.5 中间结果的证明 | 第28-29页 |
3.2.6 MapTable分发 | 第29-30页 |
3.3 系统详细描述 | 第30-35页 |
3.3.1 Map流程介绍 | 第30-31页 |
3.3.2 Combiner流程介绍 | 第31-32页 |
3.3.3 Reduce流程介绍 | 第32-33页 |
3.3.4 任务调度 | 第33-34页 |
3.3.5 增量式计算 | 第34-35页 |
3.4 数据传输 | 第35-37页 |
3.4.1 数据传输 | 第35-36页 |
3.4.2 MapTable文件格式 | 第36页 |
3.4.3 MapBase发送文件 | 第36-37页 |
3.4.4 Reduce接收文件 | 第37页 |
3.5 容错与证明 | 第37-42页 |
3.5.1 容错机制 | 第37-39页 |
3.5.2 正确性证明 | 第39-40页 |
3.5.3 代价评估 | 第40-42页 |
第4章 代码示例 | 第42-46页 |
4.1 用户使用举例 | 第42页 |
4.2 用户自定义类 | 第42-43页 |
4.3 框架实现类 | 第43-46页 |
4.3.1 编程模型类 | 第43-44页 |
4.3.2 文件传输类 | 第44-46页 |
第5章 实验 | 第46-49页 |
5.1 实验环境 | 第46页 |
5.2 实验数据 | 第46页 |
5.3 实验结果 | 第46-49页 |
5.3.1 中间结果出现时间 | 第46-48页 |
5.3.2 网络对性能的影响 | 第48页 |
5.3.3 CPU对性能的影响 | 第48-49页 |
结论 | 第49-50页 |
致谢 | 第50-51页 |
参考文献 | 第51-52页 |
附录1 用户自定义类 | 第52-53页 |
附录2 参数设置 | 第53-54页 |
附录3 实验代码 | 第54-55页 |
附录4 实验数据 | 第55-56页 |
附录5 实验代码 | 第56-57页 |