基于Spark的分布式聚类算法研究及其在社交媒体分析中的应用

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第10-18页
1.1 选题背景及意义	第10-11页
1.2 国内外研究现状	第11-13页
1.3 论文研究内容	第13-17页
1.4 文章结构	第17-18页
第二章相关概念及技术介绍	第18-26页
2.1 聚类算法	第18-22页
2.1.1 聚类算法简述	第18-19页
2.1.2 KMeans和K-Medoids	第19-21页
2.1.3 近邻传播算法(AP算法)	第21页
2.1.4 CLOPE	第21-22页
2.2 分布式计算框架	第22-25页
2.2.1 Spark并行计算框架	第22-23页
2.2.2 Spark的优势	第23-25页
2.2.3 Spark容错机制	第25页
2.3 本章小结	第25-26页
第三章聚类算法的并行化实现	第26-47页
3.1 CLARA算法并行研究	第26-30页
3.1.1 算法描述	第26-27页
3.1.2 CLARA算法的并行化	第27-28页
3.1.3 并行化CLARA算法的改进	第28-30页
3.2 DisAP算法的并行研究	第30-36页
3.2.1 算法描述	第31-33页
3.2.2 基于Spark的并行DisAP算法	第33-36页
3.3 p-CLOPE算法的并行研究	第36-41页
3.3.1 算法描述	第36-39页
3.3.2 基于Spark的并行p-CLOPE算法	第39-41页
3.4 并行聚类算法实验	第41-46页
3.4.1 实验环境	第41页
3.4.2 过程与结果分析	第41-46页
3.5 本章小结	第46-47页
第四章基于聚类算法的微博数据分析应用	第47-65页
4.1 需求分析	第47-48页
4.2 微博数据聚类分析系统框架	第48-49页
4.3 微博数据采集	第49页
4.4 数据预处理	第49-51页
4.4.1 属性选择与数据清洗	第49-50页
4.4.2 停用词处理	第50页
4.4.3 文本分词	第50-51页
4.5 特征提取	第51-55页
4.5.1 词的向量化	第51-52页
4.5.2 TF-IDF关键词抽取	第52-54页
4.5.3 Word2vec	第54页
4.5.4 文档向量化	第54-55页
4.6 系统实现及应用	第55-59页
4.6.1 系统流程	第55-56页
4.6.2 系统界面	第56-59页
4.7 实验与分析	第59-64页
4.7.1 实验环境	第59页
4.7.2 微博聚类	第59-62页
4.7.3 聚类结果	第62-63页
4.7.4 问题与分析	第63-64页
4.8 本章小结	第64-65页
第五章系统集成与应用	第65-77页
5.1 BDAP大数据平台概述	第65-67页
5.2 聚类算法的平台集成	第67-76页
5.2.1 OSGI组件集成机制	第67-68页
5.2.2 算法组件的设计与集成	第68-76页
5.3 本章小结	第76-77页
第六章总结	第77-78页
参考文献	第78-80页
致谢	第80-81页
攻读学位期间取得的研究成果	第81页