基于Hadoop的物流历史数据聚类挖掘研究

摘要	第2-4页
Abstract	第4-5页
1 绪论	第8-14页
1.1 问题的提出及研究意义	第9-10页
1.2 国内外研究现状	第10-11页
1.2.1 国内研究现状	第10页
1.2.2 国外研究现状	第10-11页
1.3 本文的主要内容及结构安排	第11-14页
1.3.1 本文的主要内容	第11-12页
1.3.2 本文的结构安排	第12-14页
2 相关理论研究	第14-30页
2.1 大数据概述	第14-17页
2.1.1 大数据的特征	第15-17页
2.2 Hadoop生态系统	第17-23页
2.2.1 HDFS分布式文件系统	第18页
2.2.2 MapReduce框架及计算模型	第18-20页
2.2.3 YARN架构	第20-22页
2.2.4 Hbase数据库	第22页
2.2.5 Zookeeper分布式协作服务	第22页
2.2.6 Sqoop	第22页
2.2.7 Pig	第22页
2.2.8 Flume工具	第22-23页
2.3 数据挖掘综述	第23-27页
2.3.1 数据挖掘方法	第23-25页
2.3.2 数据挖掘步骤	第25-27页
2.4 K-means算法理论研究	第27-29页
2.5 本章小结	第29-30页
3 基于双MapReduce改进的Canopy-Kmeans算法	第30-42页
3.1 传统的K-means算法	第30页
3.2 原始的Canopy-Kmeans算法	第30-31页
3.3 改进的Canopy-Kmeans算法	第31-35页
3.3.1 Canopy算法的改进	第31-32页
3.3.2 K-means算法的改进	第32-33页
3.3.3 聚类函数收敛性的改进	第33-35页
3.4 双MapReduce设计的Canopy-Kmeans算法	第35-40页
3.4.1 基于MapReduce设计的Canopy算法	第36-39页
3.4.2 基于MapReduce的K-means算法并行化设计	第39-40页
3.5 本章小结	第40-42页
4 实验及实验分析	第42-56页
4.1 Hadoop集群配置与部署	第42-48页
4.1.1 网络配置	第44页
4.1.2 安装JDK	第44-45页
4.1.3 建立SSH互信	第45页
4.1.4 配置Hadoop	第45-48页
4.2 实验数据及结果	第48-51页
4.2.1 数据准备	第48-50页
4.2.2 执行Canopy-Kmeans算法模型	第50页
4.2.3 结果分析	第50-51页
4.3 算法在Hadoop集群上的性能分析	第51-56页
4.3.1 算法的准确性分析	第51-54页
4.3.2 算法的加速比与扩展性分析	第54-56页
5 结论	第56-58页
参考文献	第58-62页
攻读硕士学位期间发表的论文	第62-63页
致谢	第63-65页