首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Spark的分布式聚类算法研究及其在社交媒体分析中的应用

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第10-18页
    1.1 选题背景及意义第10-11页
    1.2 国内外研究现状第11-13页
    1.3 论文研究内容第13-17页
    1.4 文章结构第17-18页
第二章 相关概念及技术介绍第18-26页
    2.1 聚类算法第18-22页
        2.1.1 聚类算法简述第18-19页
        2.1.2 KMeans和K-Medoids第19-21页
        2.1.3 近邻传播算法(AP算法)第21页
        2.1.4 CLOPE第21-22页
    2.2 分布式计算框架第22-25页
        2.2.1 Spark并行计算框架第22-23页
        2.2.2 Spark的优势第23-25页
        2.2.3 Spark容错机制第25页
    2.3 本章小结第25-26页
第三章 聚类算法的并行化实现第26-47页
    3.1 CLARA算法并行研究第26-30页
        3.1.1 算法描述第26-27页
        3.1.2 CLARA算法的并行化第27-28页
        3.1.3 并行化CLARA算法的改进第28-30页
    3.2 DisAP算法的并行研究第30-36页
        3.2.1 算法描述第31-33页
        3.2.2 基于Spark的并行DisAP算法第33-36页
    3.3 p-CLOPE算法的并行研究第36-41页
        3.3.1 算法描述第36-39页
        3.3.2 基于Spark的并行p-CLOPE算法第39-41页
    3.4 并行聚类算法实验第41-46页
        3.4.1 实验环境第41页
        3.4.2 过程与结果分析第41-46页
    3.5 本章小结第46-47页
第四章 基于聚类算法的微博数据分析应用第47-65页
    4.1 需求分析第47-48页
    4.2 微博数据聚类分析系统框架第48-49页
    4.3 微博数据采集第49页
    4.4 数据预处理第49-51页
        4.4.1 属性选择与数据清洗第49-50页
        4.4.2 停用词处理第50页
        4.4.3 文本分词第50-51页
    4.5 特征提取第51-55页
        4.5.1 词的向量化第51-52页
        4.5.2 TF-IDF关键词抽取第52-54页
        4.5.3 Word2vec第54页
        4.5.4 文档向量化第54-55页
    4.6 系统实现及应用第55-59页
        4.6.1 系统流程第55-56页
        4.6.2 系统界面第56-59页
    4.7 实验与分析第59-64页
        4.7.1 实验环境第59页
        4.7.2 微博聚类第59-62页
        4.7.3 聚类结果第62-63页
        4.7.4 问题与分析第63-64页
    4.8 本章小结第64-65页
第五章 系统集成与应用第65-77页
    5.1 BDAP大数据平台概述第65-67页
    5.2 聚类算法的平台集成第67-76页
        5.2.1 OSGI组件集成机制第67-68页
        5.2.2 算法组件的设计与集成第68-76页
    5.3 本章小结第76-77页
第六章 总结第77-78页
参考文献第78-80页
致谢第80-81页
攻读学位期间取得的研究成果第81页

论文共81页,点击 下载论文
上一篇:基于NDN的家庭能源管理系统的设计与实现
下一篇:基于动态分析的Android恶意软件检测系统的研究与实现