基于密度峰值的大数据多粒度分析研究
摘要 | 第6-8页 |
abstract | 第8-10页 |
第一章 绪论 | 第15-29页 |
1.1 引言 | 第15-16页 |
1.2 大数据 | 第16-21页 |
1.2.1 大数据的定义 | 第16-17页 |
1.2.2 大数据带来的挑战与机遇 | 第17-18页 |
1.2.3 大数据处理研究现状 | 第18-20页 |
1.2.4 目前大数据分析研究趋势 | 第20-21页 |
1.3 基于粒计算的大数据分析 | 第21-26页 |
1.3.1 粒计算概述 | 第21-24页 |
1.3.2 粒计算在大数据分析中的优势 | 第24页 |
1.3.3 大数据的粒计算分析框架 | 第24-26页 |
1.4 本文的研究工作和组织结构 | 第26-29页 |
第二章 聚类与半监督学习相关准备知识 | 第29-42页 |
2.1 引言 | 第29页 |
2.2 基于密度峰值的聚类 | 第29-32页 |
2.2.1 聚类中心的特征 | 第30-31页 |
2.2.2 中心点和异常点特征 | 第31页 |
2.2.3 算法步骤 | 第31-32页 |
2.2.4 与其他聚类方法的对比分析 | 第32页 |
2.3 基于图的半监督学习 | 第32-34页 |
2.3.1 半监督学习 | 第32-34页 |
2.3.2 基于图的半监督学习 | 第34页 |
2.4 高维数据降维 | 第34-35页 |
2.4.1 局部线性嵌入 | 第34-35页 |
2.4.2 局部敏感哈希 | 第35页 |
2.5 大数据平台Spark介绍 | 第35-37页 |
2.5.1 Spark平台来源及特征 | 第35-36页 |
2.5.2 Spark架构 | 第36页 |
2.5.3 Spark编程模型 | 第36-37页 |
2.6 学习过程的效率评价 | 第37-38页 |
2.6.1 时间复杂性 | 第37页 |
2.6.2 空间复杂性 | 第37-38页 |
2.7 学习结果的准确性评价 | 第38-41页 |
2.7.1 聚类评价 | 第38-39页 |
2.7.2 分类评价 | 第39-40页 |
2.7.3 回归分析评价 | 第40-41页 |
2.8 小结 | 第41-42页 |
第三章 基于密度峰值的高效多粒度聚类 | 第42-68页 |
3.1 引言 | 第42-44页 |
3.2 相关研究工作 | 第44-45页 |
3.2.1 密度峰值聚类 | 第44页 |
3.2.2 多粒度聚类与多粒度计算 | 第44-45页 |
3.3 DenPEHC算法 | 第45-54页 |
3.3.1 DPClust中参数曲线的分析 | 第45-46页 |
3.3.2 聚类中心点的自动选择 | 第46-48页 |
3.3.3 DPClust中的引领树 | 第48-49页 |
3.3.4 DenPEHC算法描述 | 第49-52页 |
3.3.5 异常点检测 | 第52-53页 |
3.3.6 复杂性分析 | 第53-54页 |
3.4 海量高维数据的DenPEHC聚类 | 第54-58页 |
3.4.1 海量高维数据的多粒度聚类 | 第54-55页 |
3.4.2 DenPEHC-LSHD算法 | 第55页 |
3.4.3 类别属性取值的距离度量 | 第55-57页 |
3.4.4 子集规模的确定 | 第57-58页 |
3.4.5 水平粒化的加速效应 | 第58页 |
3.5 实验 | 第58-67页 |
3.5.1 实验环境与数据集 | 第58-59页 |
3.5.2 实验结果与评价 | 第59-67页 |
3.6 小结 | 第67-68页 |
第四章 基于胖节点引领树和密度峰值的数据流聚类 | 第68-97页 |
4.1 引言 | 第68-70页 |
4.2 相关研究工作 | 第70-72页 |
4.3 引领树结构中的偏序关系 | 第72页 |
4.4 DP-Stream算法 | 第72-82页 |
4.4.1 引领树和胖节点引领树的粒化 | 第73-75页 |
4.4.2 异常点检测 | 第75-77页 |
4.4.3 胖节点引领树的增量式更新 | 第77-79页 |
4.4.4 概念漂移检测 | 第79-81页 |
4.4.5 数据老化与弱节点删除 | 第81-82页 |
4.5 复杂性分析 | 第82-83页 |
4.6 实验 | 第83-95页 |
4.6.1 实验环境与数据集 | 第83-84页 |
4.6.2 实验结果与分析 | 第84-95页 |
4.7 小结 | 第95-97页 |
第五章 基于局部密度的最优粒化和流形信息粒表示 | 第97-122页 |
5.1 引言 | 第97-98页 |
5.2 相关研究工作 | 第98-99页 |
5.2.1 可验证粒度准则 | 第99页 |
5.2.2 局部线性嵌入(LLE) | 第99页 |
5.3 基于局部密度的最优粒化 | 第99-102页 |
5.4 信息粒的流形描述 | 第102-106页 |
5.4.1 信息粒的流形描述子构建 | 第102-103页 |
5.4.2 从流形描述子重建数据 | 第103-105页 |
5.4.3 流形描述子的评价 | 第105-106页 |
5.5 LoDOG信息粒的可解释性 | 第106-107页 |
5.6 复杂性分析 | 第107-110页 |
5.6.1 LoDOG复杂性分析 | 第107-108页 |
5.6.2 关于流形描述子的复杂性 | 第108-109页 |
5.6.3 与其他研究工作的关系 | 第109-110页 |
5.7 实验 | 第110-121页 |
5.7.1 实验环境和数据集 | 第110页 |
5.7.2 实验结果与分析 | 第110-121页 |
5.8 小结 | 第121-122页 |
第六章 最优引领森林上的非迭代式标签传播 | 第122-143页 |
6.1 引言 | 第122-123页 |
6.2 相关研究工作 | 第123-126页 |
6.2.1 基于图的半监督学习(GSSL) | 第123-124页 |
6.2.2 最优引领森林 | 第124-126页 |
6.3 最优引领森林上的标签传播 | 第126-132页 |
6.3.1 LaPOLeaF标签传播的三阶段分析 | 第127-129页 |
6.3.2 LaPOLeaF算法 | 第129-132页 |
6.4 新增数据的快速学习 | 第132页 |
6.5 针对大数据的LaPOLeaF | 第132-135页 |
6.5.1 分治法与并行计算策略 | 第132-134页 |
6.5.2 使用LSH的近似计算方法 | 第134-135页 |
6.6 复杂性分析 | 第135-136页 |
6.6.1 复杂性分析 | 第135-136页 |
6.6.2 与其他方法的关系讨论 | 第136页 |
6.7 实验 | 第136-140页 |
6.7.1 实验环境与数据集 | 第136-137页 |
6.7.2 实验结果与分析 | 第137-140页 |
6.8 LaPOLeaF在水质预测中的应用 | 第140-142页 |
6.9 小结 | 第142-143页 |
第七章 总结与展望 | 第143-146页 |
7.1 本文工作总结 | 第143-144页 |
7.2 未来工作展望 | 第144-146页 |
致谢 | 第146-147页 |
参考文献 | 第147-158页 |
攻读博士学位期间的研究成果 | 第158-159页 |