首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Spark的大数据并行聚类算法研究与改进

摘要第2-3页
Abstract第3页
第一章 绪论第6-12页
    1.1 研究背景及意义第6-7页
    1.2 国内外研究现状分析第7-9页
    1.3 论文主要工作第9-10页
    1.4 论文内容安排第10-12页
第二章 相关技术研究第12-23页
    2.1 云计算框架Spark第12-17页
        2.1.1 Spark体系架构第12-13页
        2.1.2 SparkCore第13-14页
        2.1.3 Spark程序执行框架第14-15页
        2.1.4 存储系统HDFS第15-16页
        2.1.5 资源管理平台Yarn第16-17页
    2.2 聚类分析第17-22页
        2.2.1 聚类分析概述第17-19页
        2.2.2 聚类分析的数据结构第19页
        2.2.3 聚类分析的相似性度量第19-20页
        2.2.4 聚类目标函数第20-21页
        2.2.5 聚类算法分类第21-22页
    2.3 本章小结第22-23页
第三章 基于Spark的Canopy-Kmeans并行算法研究与改进第23-37页
    3.1 Canopy-Kmeans算法第23-26页
    3.2 基于密度峰值的改进Canopy-Kmeans算法第26-29页
        3.2.1 局部密度第26-27页
        3.2.2 最大最小准则与深度值第27-28页
        3.2.3 算法改进第28-29页
    3.3 改进算法的并行化设计第29-32页
    3.4 基于Spark的改进算法实现第32-36页
    3.5 本章小结第36-37页
第四章 基于Spark的CFSFDP并行算法研究与改进第37-50页
    4.1 CFSFDP算法第37-40页
    4.2 一种自动选取中心点的CFSFDP改进算法第40-44页
    4.3 改进算法的并行化设计第44-46页
    4.4 基于Spark的改进算法实现第46-49页
    4.5 本章小结第49-50页
第五章 实验设计及分析第50-61页
    5.1 Spark集群部署第50-52页
        5.1.1 实验环境配置第50页
        5.1.2 Spark集群规划第50页
        5.1.3 SparkonYarn环境搭建第50-52页
    5.2 改进Canopy-Kmeans并行算法的实验过程及结果分析第52-56页
        5.2.1 实验数据第52-53页
        5.2.2 聚类效果分析第53-55页
        5.2.3 改进算法的并行性能测试第55-56页
    5.3 自动选取中心点的CFSFDP并行算法实验过程及结果分析第56-59页
        5.3.1 实验数据第56页
        5.3.2 聚类效果分析第56-59页
        5.3.3 自动选取中心点的CFSFDP算法并行性能测试第59页
    5.4 本章小结第59-61页
第六章 总结与展望第61-63页
    6.1 总结第61页
    6.2 展望第61-63页
致谢第63-64页
参考文献第64-68页
附录第68-69页

论文共69页,点击 下载论文
上一篇:沪港通下我国人民币有效汇率与股价的相关性研究
下一篇:济南市商业银行现金管理研究