摘要 | 第1-5页 |
ABSTRACT | 第5-8页 |
第一章 引言 | 第8-11页 |
·课题的背景与意义 | 第8-9页 |
·本文的主要工作 | 第9页 |
·论文内容的组织 | 第9-11页 |
第二章 数据挖掘技术与云计算技术概述与分析 | 第11-28页 |
·数据挖掘技术概述 | 第11-14页 |
·数据挖掘的定义 | 第11页 |
·数据挖掘的功能 | 第11-13页 |
·数据挖掘的步骤 | 第13页 |
·数据挖掘面临的挑战 | 第13-14页 |
·云计算概述 | 第14-17页 |
·云计算的基本概念 | 第14页 |
·云计算的特点 | 第14-15页 |
·云计算的形式 | 第15-16页 |
·云计算的关键技术 | 第16-17页 |
·Hadoop架构分析 | 第17-27页 |
·Google文件系统GFS | 第18-19页 |
·MapReduce编程模型 | 第19-20页 |
·Hadoop分布式文件系统HDFS介绍 | 第20-25页 |
·MapReduce并行编程模型在Hadoop中的实现 | 第25-27页 |
·本章小节 | 第27-28页 |
第三章 基于云计算的快速关联规则增量挖掘算法 | 第28-36页 |
·关联规则增量挖掘算法分析 | 第28-31页 |
·关联规则增量挖掘算法的出现背景 | 第28页 |
·FUP算法描述 | 第28-31页 |
·FUP算法的特征 | 第31页 |
·FUP算法基于Hadoop的并行化改进 | 第31-34页 |
·C-FUP算法的基本思想 | 第31-32页 |
·C-FUP算法实现 | 第32-34页 |
·本章小节 | 第34-36页 |
第四章 面向快速挖掘的Hadoop平台改进 | 第36-49页 |
·HDFS数据集分配方法的改进 | 第36-42页 |
·云计算环境下的数据集分配方法 | 第36-37页 |
·Hadoop中HDFS的数据集分配方法 | 第37-41页 |
·基于节点计算性能的数据集分配方法的设计 | 第41-42页 |
·Hadoop对大量小文件的处理 | 第42-47页 |
·关于HDFS的性能分析 | 第42-44页 |
·HDFS处理大量小文件时的问题 | 第44页 |
·大量小文件在MapReduce中的问题 | 第44页 |
·解决思路 | 第44-47页 |
·本章小节 | 第47-49页 |
第五章 仿真与性能分析 | 第49-62页 |
·Hadoop平台搭建 | 第49-54页 |
·完全分布模式的配置 | 第50-52页 |
·伪分布模式的配置 | 第52-54页 |
·C-FUP算法的仿真和性能测试 | 第54-59页 |
·实验数据及实验过程 | 第54-55页 |
·单机伪分布环境下的性能比较 | 第55-57页 |
·完全分布环境下的性能比较 | 第57-58页 |
·节点数与数据量对相对加速比的影响 | 第58-59页 |
·改进的HDFS的仿真和性能测试 | 第59-61页 |
·本章小节 | 第61-62页 |
第六章 总结与展望 | 第62-63页 |
·总结 | 第62页 |
·展望 | 第62-63页 |
致谢 | 第63-64页 |
参考文献 | 第64-66页 |
攻读硕士学位期间的学术论文和参与的科研项目 | 第66页 |