基于Hadoop的聚类算法并行化分析及应用研究

摘要	第1-5页
ABSTRACT	第5-10页
第一章引言	第10-16页
·课题背景及意义	第10-11页
·国内外现状分析	第11-15页
·论文内容安排	第15-16页
第二章相关技术研究	第16-30页
·Hadoop 技术架构	第16-22页
·HDFS	第16-19页
·Namenode 和 Datanode	第17页
·数据的可靠性	第17-18页
·数据读写策略	第18-19页
·HDFS 的缺陷	第19页
·MapReduce	第19-22页
·MapReduce 执行流程	第19-21页
·MapReduce 的容错机制	第21-22页
·聚类相关技术	第22-29页
·聚类分析中相似度度量方法	第22-24页
·距离度量方法	第22-23页
·相似度系数度量方法	第23-24页
·聚类算法研究	第24-27页
·聚类算法的分类	第24-25页
·K-means 算法	第25-26页
·canopy 算法	第26-27页
·聚类中的抽样技术	第27-28页
·聚类结果的评价方法	第28-29页
·本章小结	第29-30页
第三章基于 canopy 的二次聚类算法	第30-53页
·CTK 算法的思想	第30-33页
·初始聚类中心的选择	第30页
·聚类过程	第30-32页
·CTK 算法基本流程	第32-33页
·CTK 算法的并行设计	第33-39页
·CTK 算法的并行实现	第39-46页
·算法复杂度分析	第46页
·CTK 算法的应用——热点生成	第46-52页
·数据的预处理	第47-50页
·网页信息的采集处理	第47-49页
·向量空间模型的计算	第49-50页
·热点提取	第50-51页
·热点生成的并行化	第51-52页
·本章小结	第52-53页
第四章基于最大最小距离原理的 K-means 聚类算法	第53-69页
·MMKMEANS 算法的思想	第53-56页
·初始聚类中心的选择	第53-55页
·样本的抽取	第53-54页
·待选聚类中心的获取	第54-55页
·邻近类中心的合并	第55页
·聚类过程	第55页
·MMKMEANS 算法基本流程	第55-56页
·MMKMEANS 算法的并行设计	第56-61页
·MMKMEANS 算法的并行实现	第61-67页
·算法复杂度分析	第67-68页
·MMKMEANS 算法的应用——热点生成	第68页
·本章小结	第68-69页
第五章实验结果及分析	第69-81页
·Hadoop 集群的部署	第69-70页
·软硬件环境	第69页
·部署过程	第69-70页
·测试结果分析	第70-80页
·聚类质量分析	第70-78页
·评价指标	第70-71页
·测试集及参数	第71-72页
·聚类结果分析	第72-75页
·查准率和查全率分析	第75-78页
·加速比分析	第78-79页
·热点展示	第79-80页
·本章小结	第80-81页
第六章总结与展望	第81-83页
·文本的总结	第81-82页
·未来的工作	第82-83页
致谢	第83-84页
参考文献	第84-87页
硕士期间参与的项目	第87-88页