基于MapReduce的大规模数据挖掘技术研究

摘要	第9-11页
Abstract	第11-12页
第一章绪论	第13-25页
1.1 研究背景	第13-16页
1.1.1 云计算与MapReduce	第13-14页
1.1.2 图数据挖掘与高维数据挖掘研究背景	第14页
1.1.3 基于MapReduce的数据挖掘的难点分析	第14-16页
1.1.4 基于MapReduce的数据挖掘的研究意义	第16页
1.2 研究现状	第16-20页
1.2.1 MapReduce研究现状	第16-18页
1.2.2 并行图数据处理研究现状	第18-19页
1.2.3 高维数据聚类研究现状	第19-20页
1.3 本文主要工作	第20-25页
1.3.1 研究目标与研究内容	第20-21页
1.3.2 主要工作	第21-25页
第二章预备知识与相关工作	第25-41页
2.1 预备知识	第25-30页
2.1.1 分布式计算模型	第25页
2.1.2 分布式协调服务协议	第25-26页
2.1.3 MapReduce模型介绍	第26-28页
2.1.4 MapReduce特点分析和新趋势	第28页
2.1.5 Hadoop系统	第28-30页
2.1.6 HBase列数据库	第30页
2.2 云计算平台相关工作	第30-34页
2.2.1 主流云计算平台介绍	第30-33页
2.2.2 分布式索引相关工作	第33-34页
2.3 基于MapReduce的数据挖掘相关工作	第34-35页
2.4 相关数据挖掘应用	第35-41页
2.4.1 社会网络权威值计算	第35-37页
2.4.2 社区挖掘相关工作	第37-39页
2.4.3 高维数据聚类	第39-41页
第三章局部迭代的MapReduce模型及其实现	第41-57页
3.1 MapReduce模型分析	第41-45页
3.1.1 MapReduce模型对于迭代类挖掘算法的适用性分析	第41-42页
3.1.2 MapReduce模型对于大规模图挖掘算法的适用性分析	第42页
3.1.3 性能分析与优化策略	第42-45页
3.2 数据挖掘算法的局部迭代性	第45-46页
3.2.1 图挖掘算法的局部迭代性	第45-46页
3.2.2 聚类算法的局部迭代性	第46页
3.3 局部迭代的MapReduce模型	第46-49页
3.3.1 LI-MR模型对缓存和索引支持	第47页
3.3.2 LI-MR模型对局部计算的支持	第47-48页
3.3.3 子图划分	第48页
3.3.4 LI-MR模型的适用性分析	第48-49页
3.4 LI-MR模型的系统实现	第49-56页
3.4.1 扩展Hadoop实现LI-MR模型	第50-54页
3.4.2 基于HBase的LI-MR框架	第54-55页
3.4.3 LI-MR框架与其它分布式处理系统的比较	第55-56页
3.5 本章总结	第56-57页
第四章基于LI-MR模型的大规模图的社区挖掘算法研究	第57-67页
4.1 引言	第57页
4.2 研究背景与预备知识	第57-59页
4.3 MR-LPA算法	第59-64页
4.3.1 MR-LPA算法概述	第60页
4.3.2 数据预处理与数据分片	第60-62页
4.3.3 MapReduceJob_lpa子过程	第62页
4.3.4 MR-LPA算法收敛的判定	第62-63页
4.3.5 社团挖掘评价算法	第63-64页
4.3.6 MR-LPA算法的复杂度分析	第64页
4.4 实验	第64-66页
4.4.1 数据集	第64页
4.4.2 实验环境	第64-65页
4.4.3 MR-LPA算法收敛实验	第65页
4.4.4 垂直数据分片方式的可扩展性分析	第65-66页
4.5 本章总结	第66-67页
第五章基于LI-MR模型的PageRank算法研究	第67-83页
5.1 引言	第67-68页
5.2 LI-PageRank算法	第68-75页
5.2.1 PageRank计算的局部性分析	第68-69页
5.2.2 LI-PageRank算法概述	第69页
5.2.3 LI-PageRank算法	第69-70页
5.2.4 子图划分	第70-73页
5.2.5 Map阶段与缓存更新	第73-74页
5.2.6 Reduce阶段与消息分组	第74页
5.2.7 一个例子	第74页
5.2.8 代价分析	第74-75页
5.3 GIM-V算法在基于HBase的LI-MR框架上的实现	第75-77页
5.3.1 GIM-V算法在基于HBase的LI-MR框架上的实现	第76-77页
5.3.2 LI-PageRank算法在基于HBase的LI-MR框架上的实现	第77页
5.4 实验	第77-81页
5.4.1 数据集与实验环境	第77-78页
5.4.2 实验设计与评估	第78-81页
5.5 本章总结	第81-83页
第六章基于LI-MR模型的大规模高维数据聚类	第83-103页
6.1 引言	第83-84页
6.2 本章研究背景与预备知识	第84-87页
6.2.1 相关工作	第84-85页
6.2.2 R树索引	第85页
6.2.3 局部敏感哈希函数	第85-86页
6.2.4 k-means算法及其改进算法	第86-87页
6.3 挑战	第87页
6.4 基于LSH的k-means算法	第87-94页
6.4.1 基于LSH的代表点机制	第88-90页
6.4.2 利用k-means++进行初始中心点的选取	第90-93页
6.4.3 基于LSH的比较计算的裁减	第93-94页
6.5 实验	第94-101页
6.5.1 实验设置	第94页
6.5.2 数据集和基准程序	第94-95页
6.5.3 实验设计与评估	第95-101页
6.6 本章总结	第101-103页
第七章总结和展望	第103-107页
7.1 全文工作总结	第103-104页
7.2 后续工作展望	第104-107页
7.2.1 尝试创建基于Katta的Hadoop索引服务器	第104-105页
7.2.2 尝试在MapReduce上研究图上面的分割算法和索引结构	第105页
7.2.3 尝试在MapReduce上实现更多的图算法	第105-107页
参考文献	第107-117页
发表文章目录	第117-119页
致谢	第119-120页