首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于hadoop平台下的k均值高效算法的研究

摘要第1-4页
Abstract第4-8页
第一章 绪论第8-12页
   ·课题背景及意义第8页
   ·研究现状第8-10页
   ·论文的内容第10-12页
第二章 Hadoop技术介绍第12-23页
   ·Hadoop 子项目第12-13页
   ·Hadoop 文件系统 HDFS第13页
   ·HDFS 中的读写数据流第13-15页
     ·文件的读取第13-14页
     ·文件的写入第14-15页
   ·HDFS 的设计目标第15页
   ·HDFS 优点和缺点第15-16页
   ·MapReduce 编程模型第16-20页
     ·Map 任务第16-17页
     ·Reduce 任务第17页
     ·MapReduce 的执行步骤第17-18页
     ·MapReduce 的数据流和控制流第18-19页
     ·MapReduce 任务的优化第19-20页
   ·Mahout 算法库第20-22页
     ·Mahout 概述第20页
     ·Mahout 算法第20-22页
   ·本章小结第22-23页
第三章 聚类技术第23-34页
   ·聚类的定义第23页
   ·聚类算法的分类第23-24页
   ·聚类分析中的数据结构第24-25页
   ·聚类分析中相似度度量方法第25-27页
     ·数据间的相异度度量方法第25-26页
     ·相似度度量方法第26-27页
   ·聚类分析的流程第27-31页
     ·k-means 算法思想第27-29页
     ·k-means 算法性能分析第29-30页
     ·k-means 算法的改进第30-31页
     ·k-means 算法的并行化第31页
   ·canopy 算法第31-33页
  canopy 算法思想第31-33页
   ·canopy 算法并行化第33页
   ·本章小结第33-34页
第四章 改进的 Canopy-Kmeans 算法第34-44页
   ·聚类中的数据抽样第34-35页
   ·选择两个最佳初始聚类中心第35-37页
     ·Graham's Scan 法求解凸包第35-37页
     ·旋转卡壳法求对踵点第37页
   ·聚类中心临近点的获取第37-38页
   ·剩余聚类中心的求解第38-40页
   ·聚类个数 k 的确定第40-41页
   ·改进算法的整体描述第41-42页
   ·本章小结第42-44页
第五章 改进算法和 canopy 算法的并行实现第44-56页
   ·数据的预处理第44-45页
   ·数据抽样的并行实现第45-47页
   ·最大最小距离算法的并行实现第47-48页
   ·k-means 算法的并行实现第48-51页
   ·canopy 算法的 MapReduce 实现第51-55页
   ·改进算法复杂度分析第55页
   ·本章小结第55-56页
第六章 实验与分析第56-64页
   ·实验平台的搭建第56-59页
     ·软硬件环境第56-57页
     ·安装 JDK第57页
     ·SSH 没有密码配置过程第57-58页
     ·配置 hadoop第58页
     ·Mahout 的安装和配置第58页
     ·注意事项第58-59页
   ·实验数据准备阶段第59页
   ·测试结果与分析第59-62页
   ·本章小结第62-64页
第七章 全文总结与展望第64-66页
   ·论文的总结第64页
   ·未来展望第64-66页
致谢第66-68页
参考文献第68-70页

论文共70页,点击 下载论文
上一篇:基于ThinkPHP的微课教学竞赛系统设计与实现
下一篇:基于社交网络的数据挖掘研究