基于Hadoop云计算平台的K-Means聚类算法研究
摘要 | 第5-6页 |
Abstract | 第6-7页 |
第1章 绪论 | 第10-15页 |
1.1 研究目的及意义 | 第10页 |
1.2 国内外发展现状 | 第10-14页 |
1.3 本文研究的主要内容 | 第14-15页 |
第2章 相关技术研究与分析 | 第15-28页 |
2.1 Hadoop云计算平台 | 第15-24页 |
2.1.1 系统架构概述 | 第15-16页 |
2.1.2 分布式文件系统HDFS | 第16-21页 |
2.1.3 分布式计算框架Map Reduce | 第21-24页 |
2.2 数据挖掘及聚类分析 | 第24-27页 |
2.2.1 数据挖掘技术 | 第24-25页 |
2.2.2 聚类分析定义及改进方向 | 第25-26页 |
2.2.3 聚类分析方法 | 第26-27页 |
2.3 本章小结 | 第27-28页 |
第3章 聚类分析系统的设计与实现 | 第28-41页 |
3.1 系统简介 | 第28-30页 |
3.1.1 开发环境介绍 | 第28-29页 |
3.1.2 总体架构概述 | 第29-30页 |
3.2 底层环境搭建 | 第30-36页 |
3.2.1 Hadoop集群部署 | 第31-32页 |
3.2.2 环境配置与服务搭建 | 第32-36页 |
3.3 中间逻辑层实现 | 第36-38页 |
3.3.1 数据管理模块 | 第36-37页 |
3.3.2 算法管理模块 | 第37页 |
3.3.3 资源监控模块 | 第37-38页 |
3.3.4 日志分析模块 | 第38页 |
3.4 对外服务层实现 | 第38-40页 |
3.5 本章小结 | 第40-41页 |
第4章K-Means并行算法的改进 | 第41-54页 |
4.1 传统K-Means算法 | 第41-43页 |
4.1.1 算法概念 | 第41页 |
4.1.2 算法公式 | 第41-42页 |
4.1.3 算法执行流程 | 第42-43页 |
4.1.4 算法存在的问题 | 第43页 |
4.2 K-Means算法改进方案 | 第43-46页 |
4.2.1 并行随机采样 | 第43-44页 |
4.2.2 样本距离计算并行化 | 第44-45页 |
4.2.3 数据对象聚类并行化 | 第45-46页 |
4.3 改进的K-Means并行算法实现 | 第46-48页 |
4.4 聚类分析系统环境下的算法实验 | 第48-53页 |
4.4.1 聚类分析系统实验环境介绍 | 第48-49页 |
4.4.2 收敛速度比较 | 第49-50页 |
4.4.3 正确率比较 | 第50-51页 |
4.4.4 初始化采样速率比较 | 第51-52页 |
4.4.5 集群环境加速比验证 | 第52-53页 |
4.5 本章小结 | 第53-54页 |
结论 | 第54-55页 |
参考文献 | 第55-59页 |
攻读硕士学位期间发表的学术论文 | 第59-60页 |
致谢 | 第60页 |