摘要 | 第4-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第10-14页 |
1.1 研究背景与选题意义 | 第10-11页 |
1.2 目前研究进展 | 第11-12页 |
1.3 论文主要工作 | 第12-13页 |
1.4 论文的组织结构 | 第13-14页 |
第二章 关键技术分析 | 第14-22页 |
2.1 Apache Spark | 第14-15页 |
2.2 异构数据源与数据集成 | 第15-16页 |
2.3 基于维度建模的数据仓库构建与Apache Hive | 第16-19页 |
2.4 数据挖掘技术 | 第19-22页 |
2.4.1 聚类算法 | 第19-20页 |
2.4.2 数据挖掘流程 | 第20-22页 |
第三章 需求分析与系统设计 | 第22-29页 |
3.1 系统需求分析 | 第22-24页 |
3.1.1 需求背景 | 第22页 |
3.1.2 数据仓库的构建需求 | 第22-23页 |
3.1.3 数据挖掘算法的并行化 | 第23-24页 |
3.2 系统总体架构 | 第24-26页 |
3.2.1 系统逻辑架构 | 第24-26页 |
3.3 系统数据仓库概要设计 | 第26-27页 |
3.4 系统数据挖掘与分析模块概要设计 | 第27-29页 |
第四章 系统数据仓库的设计与构建 | 第29-35页 |
4.1 数据仓库的ETL设计与实现 | 第29-31页 |
4.1.1 数据仓库ETL过程设计 | 第30页 |
4.1.2 数据仓库ETL过程实现 | 第30-31页 |
4.2 系统数据仓库的建模设计 | 第31-33页 |
4.3 对数据仓库的性能优化 | 第33-34页 |
4.4 本章小结 | 第34-35页 |
第五章 系统数据挖掘与分析模块的设计与实现 | 第35-49页 |
5.1 数据预处理模块的设计与实现 | 第35-37页 |
5.1.1 源数据中的特征处理 | 第35-36页 |
5.1.2 源数据标准化 | 第36-37页 |
5.1.3 数据预处理功能的实现 | 第37页 |
5.2 并行化canopy-Kmeans算法的设计与实现 | 第37-43页 |
5.2.1 K-means算法介绍 | 第37-38页 |
5.2.2 canopy算法介绍 | 第38-39页 |
5.2.3 并行化canopy-Kmeans算法设计 | 第39-42页 |
5.2.4 canopy-Kmeans改进算法并行化实现 | 第42-43页 |
5.3 DBSCAN并行化算法的设计与实现 | 第43-48页 |
5.3.1 DBSCAN算法介绍 | 第43-45页 |
5.3.2 DBSCAN算法的并行化设计与实现 | 第45-47页 |
5.3.3 并行DBSCAN算法的实现 | 第47-48页 |
5.4 本章小结 | 第48-49页 |
第六章 课题结果展示 | 第49-54页 |
6.1 系统环境 | 第49页 |
6.2 展示方案 | 第49页 |
6.3 数据挖掘结果 | 第49-53页 |
6.3.1 功能测试 | 第49-51页 |
6.3.2 性能测试 | 第51-53页 |
6.3.3 算法比较 | 第53页 |
6.4 本章小结 | 第53-54页 |
第七章 总结与展望 | 第54-56页 |
7.1 总结 | 第54-55页 |
7.2 展望 | 第55-56页 |
参考文献 | 第56-59页 |
致谢 | 第59-60页 |
攻读学位期间取得的研究成果 | 第60页 |