首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Spark的流数据聚类方法研究

摘要第8-9页
ABSTRACT第9-10页
第1章 绪论第11-17页
    1.1 研究背景第11-12页
    1.2 研究意义第12-13页
    1.3 国内外研究现状第13-15页
        1.3.1 分布式计算研究现状第13页
        1.3.2 流数据聚类研究现状第13-15页
    1.4 本文主要的研究内容第15页
    1.5 本文的组织结构第15-17页
第2章 相关理论方法研究综述第17-27页
    2.1 聚类分析定义第17-18页
    2.2 经典聚类算法第18-20页
    2.3 流数据相关概念第20-21页
    2.4 流数据挖掘技术第21-22页
    2.5 流数据聚类算法第22-25页
    2.6 本章小结第25-27页
第3章 分布式计算平台第27-35页
    3.1 Hadoop第27-30页
        3.1.1 MapReduce第28页
        3.1.2 HDFS第28-29页
        3.1.3 YARN第29-30页
    3.2 STORM第30-31页
    3.3 Spark第31-33页
        3.3.1 RDD(弹性分布式数据集)第31-32页
        3.3.2 SparkStreaming第32-33页
        3.3.3 MLlib第33页
    3.4 本章小结第33-35页
第4章 基于Clustream的流数据聚类算法第35-47页
    4.1 基本概念第35-36页
        4.1.1 算法定义第35页
        4.1.2 算法思想第35-36页
    4.2 改进的在线微聚类层第36-39页
    4.3 基于SA算法的离线宏聚类层第39-43页
        4.3.1 SA算法思想第40页
        4.3.2 SA算法流程第40-41页
        4.3.3 基于SA思想的改进离线宏聚类层第41页
        4.3.4 基于SA思想的改进离线宏聚类层算法流程第41-43页
    4.4 实验与结果分析第43-45页
        4.4.1 实验数据第43页
        4.4.2 实验分析第43-45页
    4.5 本章小结第45-47页
第5章 基于Spark的流数据聚类算法第47-57页
    5.1 基于Spark的SClustream算法的并行化实现第47-48页
    5.2 实验设计与分析第48-51页
        5.2.1 实验环境的配置第48-49页
        5.2.2 实验平台搭建第49-51页
        5.2.3 基于Yarn安装Spark环境第51页
    5.3 实验数据第51-52页
    5.4 实验过程及结果分析第52-56页
        5.4.1 聚类算法的质量分析第52-55页
        5.4.2 聚类算法扩展性分析第55-56页
    5.5 本章小结第56-57页
第6章 总结与展望第57-59页
    6.1 总结第57-58页
    6.2 展望第58-59页
参考文献第59-63页
致谢第63-65页
在学期间主要科研成果第65-66页

论文共66页,点击 下载论文
上一篇:基于信息提取策略的差分进化算法研究
下一篇:抗盗版攻击的叛逆者追踪与撤销方案的研究