基于Mahout的聚类算法的研究

摘要	第1-7页
Abstract	第7-11页
第一章绪论	第11-16页
·研究背景	第11-12页
·国内外研究现状	第12-13页
·国内研究现状	第12页
·国外研究现状	第12-13页
·研究内容、创新点和论文结构	第13-16页
·研究内容	第13-14页
·论文创新点	第14页
·论文结构	第14-16页
第二章 Hadoop 技术框架研究	第16-28页
·Hadoop 简介	第16-18页
·Hadoop 概况	第16-17页
·Hadoop 子项目	第17页
·Hadoop 优势	第17-18页
·MapReduce 计算模型	第18-21页
·MapReduce 编程模式	第18-19页
·MapReduce 执行流程	第19-20页
·MapReduce 容错机制	第20-21页
·HDFS 分布式文件系统	第21-23页
·HDFS 主要特性	第21-22页
·HDFS 体系结构	第22-23页
·HDFS 容错机制	第23页
·Mahout 简介	第23-25页
·Mahout 概况	第23-24页
·Mahout 算法库	第24-25页
·Hadoop 与 MPI 的比较	第25-27页
·不同学科学者的选择	第25-26页
·Hadoop 与 MPI 在数据处理上的对比	第26-27页
·本章小结	第27-28页
第三章并行策略研究	第28-41页
·聚类算法	第28-29页
·Mahout 数据模型	第29-34页
·向量表示	第29页
·相似度计算	第29-31页
·将数据转化为向量	第31-32页
·将文本转化为向量	第32-34页
·基于 MapReduce 的 K-means 算法并行研究	第34-40页
·K-means 算法思想	第34-35页
·K-means 算法流程	第35-36页
·基于 MapReduce 的 K-means 算法并行设计	第36-40页
·算法并行可行性分析	第36-37页
·算法并行设计	第37-40页
·算法时间复杂度	第40页
·本章小结	第40-41页
第四章实验与分析	第41-59页
·实验平台	第41-42页
·硬件环境	第41页
·软件环境	第41-42页
·实验一:文档聚类	第42-47页
·数据预处理	第42-44页
·实验过程	第44-45页
·实验结果分析	第45-47页
·实验二:算法优化及比较	第47-57页
·优化 K-means 算法	第47-53页
·Canopy 算法思想	第48-49页
·Canopy 算法流程	第49-50页
·Canopy 算法并行化	第50-52页
·优化 K-means 算法	第52-53页
·算法时间复杂度	第53页
·K-means 与 fuzzy c-means 算法的比较	第53-54页
·实验设计	第54-55页
·结论与分析	第55-57页
·实验总结	第57-58页
·本章小结	第58-59页
第五章结束语	第59-61页
·论文总结	第59-60页
·进一步工作	第60-61页
参考文献	第61-65页
致谢	第65-66页
攻读硕士学位期间的研究成果	第66页