基于YARN和Spark框架的数据挖掘算法并行研究

摘要	第4-6页
ABSTRACT	第6-8页
1. 绪论	第11-15页
1.1 研究背景	第11-12页
1.2 研究的目的与意义	第12页
1.3 国内外研究现状	第12-13页
1.4 本文的工作	第13-14页
1.5 论文的组织结构	第14-15页
2. 数据挖掘相关概念及技术	第15-20页
2.1 数据挖掘概念	第15页
2.2 数据挖掘的分类	第15-16页
2.3 聚类分析	第16-17页
2.4 分布式数据挖掘	第17-18页
2.5 并行算法的性能评价	第18-20页
3. 分布式计算平台综述	第20-27页
3.1 系统架构	第20页
3.2 HDFS文件系统	第20-22页
3.3 YARN资源管理器	第22-23页
3.4 Tachyon分布式内存管理系统	第23-24页
3.5 Spark并行计算框架	第24-27页
4. DBSCAN算法并行研究	第27-38页
4.1 DBSCAN算法	第27-30页
4.2 算法分析	第30页
4.3 基于平台的并行设计	第30-36页
4.4 基于平台的并行实现	第36-38页
5. 实验结果分析	第38-49页
5.1 实验环境	第38-39页
5.2 平台搭建	第39-44页
5.3 实验过程与分析	第44-49页
6. 总结与展望	第49-51页
6.1 总结	第49页
6.2 展望	第49-51页
参考文献	第51-55页
致谢	第55页