首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Hadoop的物流历史数据聚类挖掘研究

摘要第2-4页
Abstract第4-5页
1 绪论第8-14页
    1.1 问题的提出及研究意义第9-10页
    1.2 国内外研究现状第10-11页
        1.2.1 国内研究现状第10页
        1.2.2 国外研究现状第10-11页
    1.3 本文的主要内容及结构安排第11-14页
        1.3.1 本文的主要内容第11-12页
        1.3.2 本文的结构安排第12-14页
2 相关理论研究第14-30页
    2.1 大数据概述第14-17页
        2.1.1 大数据的特征第15-17页
    2.2 Hadoop生态系统第17-23页
        2.2.1 HDFS分布式文件系统第18页
        2.2.2 MapReduce框架及计算模型第18-20页
        2.2.3 YARN架构第20-22页
        2.2.4 Hbase数据库第22页
        2.2.5 Zookeeper分布式协作服务第22页
        2.2.6 Sqoop第22页
        2.2.7 Pig第22页
        2.2.8 Flume工具第22-23页
    2.3 数据挖掘综述第23-27页
        2.3.1 数据挖掘方法第23-25页
        2.3.2 数据挖掘步骤第25-27页
    2.4 K-means算法理论研究第27-29页
    2.5 本章小结第29-30页
3 基于双MapReduce改进的Canopy-Kmeans算法第30-42页
    3.1 传统的K-means算法第30页
    3.2 原始的Canopy-Kmeans算法第30-31页
    3.3 改进的Canopy-Kmeans算法第31-35页
        3.3.1 Canopy算法的改进第31-32页
        3.3.2 K-means算法的改进第32-33页
        3.3.3 聚类函数收敛性的改进第33-35页
    3.4 双MapReduce设计的Canopy-Kmeans算法第35-40页
        3.4.1 基于MapReduce设计的Canopy算法第36-39页
        3.4.2 基于MapReduce的K-means算法并行化设计第39-40页
    3.5 本章小结第40-42页
4 实验及实验分析第42-56页
    4.1 Hadoop集群配置与部署第42-48页
        4.1.1 网络配置第44页
        4.1.2 安装JDK第44-45页
        4.1.3 建立SSH互信第45页
        4.1.4 配置Hadoop第45-48页
    4.2 实验数据及结果第48-51页
        4.2.1 数据准备第48-50页
        4.2.2 执行Canopy-Kmeans算法模型第50页
        4.2.3 结果分析第50-51页
    4.3 算法在Hadoop集群上的性能分析第51-56页
        4.3.1 算法的准确性分析第51-54页
        4.3.2 算法的加速比与扩展性分析第54-56页
5 结论第56-58页
参考文献第58-62页
攻读硕士学位期间发表的论文第62-63页
致谢第63-65页

论文共65页,点击 下载论文
上一篇:光谱测量系统中差分吸收算法的优化研究
下一篇:基于组合算法的电子商务推荐系统的研究