创新点摘要 | 第5-6页 |
摘要 | 第6-8页 |
ABSTRACT | 第8-9页 |
第1章 绪论 | 第12-30页 |
1.1 课题背景及研究意义 | 第12-15页 |
1.2 聚类理论 | 第15-22页 |
1.2.1 聚类的定义及过程 | 第15-16页 |
1.2.2 相似性度量 | 第16-18页 |
1.2.3 常用的聚类算法 | 第18-20页 |
1.2.4 聚类结果检验 | 第20-22页 |
1.3 国内外研究现状 | 第22-28页 |
1.4 主要研究内容 | 第28-30页 |
第2章 云计算环境下海量数据聚类的相关技术 | 第30-49页 |
2.1 云计算 | 第30-34页 |
2.1.1 云计算概述 | 第30-33页 |
2.1.2 云计算关键技术 | 第33-34页 |
2.2 MapReduce介绍 | 第34-39页 |
2.2.1 MapReduce编程模型及运行原理 | 第35-37页 |
2.2.2 Hadoop MapReduce实现 | 第37-39页 |
2.3 k-means聚类算法 | 第39-46页 |
2.3.1 k-means算法概述 | 第39-42页 |
2.3.2 k-means算法存在的问题 | 第42页 |
2.3.3 k-means的MapReduce实现 | 第42-46页 |
2.4 k-means++和scalable k-means++ | 第46-48页 |
2.5 本章小结 | 第48-49页 |
第3章 并行可扩展的k-means++聚类算法 | 第49-66页 |
3.1 引言 | 第49-50页 |
3.2 并行可扩展的k-means++聚类算法 | 第50-58页 |
3.2.1 PSKMI算法实现 | 第50-52页 |
3.2.2 PSKM++理论分析 | 第52-56页 |
3.2.3 PSKMI算法的优化 | 第56-58页 |
3.3 实验及结果分析 | 第58-65页 |
3.3.1 实验环境设置 | 第59-60页 |
3.3.2 实验结果及分析 | 第60-65页 |
3.4 本章小节 | 第65-66页 |
第4章 快速的scalable k-means++聚类算法 | 第66-80页 |
4.1 引言 | 第66-67页 |
4.2 快速的scalable k-means++聚类算法 | 第67-74页 |
4.2.1 MRSKMI实现 | 第68-69页 |
4.2.2 过采样修正方法 | 第69-72页 |
4.2.3 优化策略 | 第72-74页 |
4.3 实验及结果分析 | 第74-78页 |
4.3.1 实验环境设置 | 第74页 |
4.3.2 实验结果及分析 | 第74-78页 |
4.4 本章小结 | 第78-80页 |
第5章 基于抽样估计的数据划分方法 | 第80-104页 |
5.1 引言 | 第80-81页 |
5.2 同步Map和Reduce | 第81-83页 |
5.3 解决方法概述 | 第83-84页 |
5.4 抽样 | 第84-88页 |
5.5 数据划分方法 | 第88-93页 |
5.5.1 簇组合 | 第88-90页 |
5.5.2 簇分割组合 | 第90-93页 |
5.6 应用 | 第93-94页 |
5.7 实验及结果分析 | 第94-103页 |
5.7.1 实验环境设置 | 第94-96页 |
5.7.2 实验结果及分析 | 第96-103页 |
5.8 本章小结 | 第103-104页 |
第6章 总结与展望 | 第104-106页 |
6.1 工作总结 | 第104-105页 |
6.2 研究展望 | 第105-106页 |
参考文献 | 第106-121页 |
攻读学位期间公开发表论文 | 第121-122页 |
致谢 | 第122-123页 |
作者简介 | 第123页 |