基于Hadoop云计算平台的聚类算法并行化研究

摘要	第3-5页
Abstract	第5-6页
1 绪论	第9-13页
1.1 论文研究背景	第9-10页
1.2 国内外研究现状	第10-11页
1.3 论文研究目的及其意义	第11页
1.4 论文组织结构	第11-13页
2 文本聚类	第13-27页
2.1 文本聚类概述	第13-14页
2.2 文本聚类分类	第14-16页
2.3 文本聚类技术	第16-26页
2.3.1 文本分词技术	第16-18页
2.3.2 特征降维方法	第18-21页
2.3.3 文本表示方法	第21-22页
2.3.4 特征权重计算方法	第22-23页
2.3.5 距离和相似度度量	第23-26页
2.4 本章小结	第26-27页
3 Hadoop 云计算平台	第27-38页
3.1 HDFS 分布式文件系统	第28-34页
3.1.1 HDFS 的特点	第28-29页
3.1.2 HDFS 的体系结构	第29-31页
3.1.3 保障 HDFS 可靠性措施	第31-32页
3.1.4 HDFS 缺点及改进	第32-34页
3.2 MapReduce 编程模型	第34-37页
3.2.1 MapReduce 编程思想	第34-36页
3.2.2 MapReduce 处理流程	第36-37页
3.3 本章小结	第37-38页
4 基于 MapReduce 编程模型的 Canopy 文本聚类算法	第38-52页
4.1 k 均值算法简介	第38-40页
4.2 k 均值算法 MapReduce 并行化	第40-44页
4.3 Canopy 算法简介	第44-47页
4.4 Canopy 算法 MapReduce 并行化设计	第47-50页
4.5 本章小结	第50-52页
5 实验与分析	第52-59页
5.1 实验环境	第52-53页
5.2 数据集预处理	第53页
5.3 单机对比实验	第53-54页
5.4 集群加速比实验	第54-55页
5.5 聚类结果分析	第55-58页
5.6 本章小结	第58-59页
结论	第59-60页
参考文献	第60-63页
在学研究成果	第63-64页
致谢	第64页