首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Hadoop的聚类算法并行化分析及应用研究

摘要第1-5页
ABSTRACT第5-10页
第一章 引言第10-16页
   ·课题背景及意义第10-11页
   ·国内外现状分析第11-15页
   ·论文内容安排第15-16页
第二章 相关技术研究第16-30页
   ·Hadoop 技术架构第16-22页
     ·HDFS第16-19页
       ·Namenode 和 Datanode第17页
       ·数据的可靠性第17-18页
       ·数据读写策略第18-19页
       ·HDFS 的缺陷第19页
     ·MapReduce第19-22页
       ·MapReduce 执行流程第19-21页
       ·MapReduce 的容错机制第21-22页
   ·聚类相关技术第22-29页
     ·聚类分析中相似度度量方法第22-24页
       ·距离度量方法第22-23页
       ·相似度系数度量方法第23-24页
     ·聚类算法研究第24-27页
       ·聚类算法的分类第24-25页
       ·K-means 算法第25-26页
       ·canopy 算法第26-27页
     ·聚类中的抽样技术第27-28页
     ·聚类结果的评价方法第28-29页
   ·本章小结第29-30页
第三章 基于 canopy 的二次聚类算法第30-53页
   ·CTK 算法的思想第30-33页
     ·初始聚类中心的选择第30页
     ·聚类过程第30-32页
     ·CTK 算法基本流程第32-33页
   ·CTK 算法的并行设计第33-39页
   ·CTK 算法的并行实现第39-46页
   ·算法复杂度分析第46页
   ·CTK 算法的应用——热点生成第46-52页
     ·数据的预处理第47-50页
       ·网页信息的采集处理第47-49页
       ·向量空间模型的计算第49-50页
     ·热点提取第50-51页
     ·热点生成的并行化第51-52页
   ·本章小结第52-53页
第四章 基于最大最小距离原理的 K-means 聚类算法第53-69页
   ·MMKMEANS 算法的思想第53-56页
     ·初始聚类中心的选择第53-55页
       ·样本的抽取第53-54页
       ·待选聚类中心的获取第54-55页
       ·邻近类中心的合并第55页
     ·聚类过程第55页
     ·MMKMEANS 算法基本流程第55-56页
   ·MMKMEANS 算法的并行设计第56-61页
   ·MMKMEANS 算法的并行实现第61-67页
   ·算法复杂度分析第67-68页
   ·MMKMEANS 算法的应用——热点生成第68页
   ·本章小结第68-69页
第五章 实验结果及分析第69-81页
   ·Hadoop 集群的部署第69-70页
     ·软硬件环境第69页
     ·部署过程第69-70页
   ·测试结果分析第70-80页
     ·聚类质量分析第70-78页
       ·评价指标第70-71页
       ·测试集及参数第71-72页
       ·聚类结果分析第72-75页
       ·查准率和查全率分析第75-78页
     ·加速比分析第78-79页
     ·热点展示第79-80页
   ·本章小结第80-81页
第六章 总结与展望第81-83页
   ·文本的总结第81-82页
   ·未来的工作第82-83页
致谢第83-84页
参考文献第84-87页
硕士期间参与的项目第87-88页

论文共88页,点击 下载论文
上一篇:高校学生宿舍信息管理系统的研究与实现
下一篇:XH置业公司多项目管理信息系统设计与开发