基于Hadoop的数据挖掘算法的分析与研究
摘要 | 第1-4页 |
Abstract | 第4-10页 |
第一章 绪论 | 第10-14页 |
·课题背景及意义 | 第10-11页 |
·国内外研究现状 | 第11-12页 |
·论文研究内容 | 第12页 |
·论文组织结构 | 第12-14页 |
第二章 Hadoop技术框架研究 | 第14-28页 |
·Hadoop概况 | 第14-15页 |
·Hadoop历史 | 第14页 |
·Hadoop优势 | 第14页 |
·Hadoop子项目 | 第14-15页 |
·MapReduce编程模型 | 第15-20页 |
·MapReduce逻辑模型 | 第15-16页 |
·MapReduce任务流程 | 第16-19页 |
·MapReduce容错机制 | 第19-20页 |
·HDFS机制 | 第20-24页 |
·HDFS特点及局限性 | 第20-21页 |
·HDFS相关概念 | 第21-22页 |
·HDFS体系结构 | 第22-24页 |
·Mahout算法库 | 第24-26页 |
·Mahout概况 | 第24-25页 |
·Mahout算法 | 第25-26页 |
·本章小结 | 第26-28页 |
第三章 K-Means算法并行策略研究 | 第28-52页 |
·什么是聚类分析 | 第28-29页 |
·K-Means算法描述 | 第29-33页 |
·K-Means算法并行策略 | 第33-50页 |
·Mahout数据模型 | 第33-40页 |
·向量表示 | 第33页 |
·相似度计算 | 第33-35页 |
·将数据转化为向量 | 第35-37页 |
·将文本转化为向量 | 第37-40页 |
·K-Means算法并行分析 | 第40-50页 |
·并行策略 | 第40-41页 |
·Mahout K-Means结构 | 第41-42页 |
·K-Means聚类MapReduce实现 | 第42-50页 |
·本章小结 | 第50-52页 |
第四章 实验与评估 | 第52-68页 |
·实验平台搭建 | 第52-55页 |
·硬件环境 | 第52页 |
·软件环境 | 第52页 |
·搭建Hadoop集群 | 第52-55页 |
·安装JDK | 第52-53页 |
·配置SSH无密码登录 | 第53页 |
·安装Hadoop | 第53-55页 |
·安装Mahout | 第55页 |
·实验过程 | 第55-65页 |
·实验一 | 第55-64页 |
·数据预处理 | 第56-59页 |
·K-Means过程 | 第59-60页 |
·实验结果 | 第60-63页 |
·实验评估 | 第63-64页 |
·实验二 | 第64-65页 |
·环境配置 | 第64页 |
·数据准备 | 第64页 |
·K-Means过程 | 第64-65页 |
·实验结果 | 第65页 |
·本章小结 | 第65-68页 |
第五章 总结与展望 | 第68-70页 |
·论文总结 | 第68页 |
·未来展望 | 第68-70页 |
致谢 | 第70-72页 |
参考文献 | 第72-76页 |
附录A:攻读学位期间发表论文目录 | 第76页 |