摘要 | 第11-13页 |
ABSTRACT | 第13-14页 |
第一章 绪论 | 第15-31页 |
1.1 研究背景 | 第15-21页 |
1.1.1 网络欺诈行为发现 | 第15-16页 |
1.1.2 离群点检测技术 | 第16-19页 |
1.1.3 数据不确定性 | 第19-20页 |
1.1.4 面临的挑战 | 第20-21页 |
1.2 研究现状 | 第21-27页 |
1.2.1 基于距离的离群点检测 | 第21-22页 |
1.2.2 不确定数据模型 | 第22-24页 |
1.2.3 不确定数据查询 | 第24-25页 |
1.2.4 不确定离群点检测 | 第25-27页 |
1.3 本文主要研究内容及创新点 | 第27-29页 |
1.3.1 期望离群点检测 | 第27-28页 |
1.3.2 半期望离群点检测 | 第28页 |
1.3.3 相对离群点检测 | 第28页 |
1.3.4 全概率离群点检测 | 第28-29页 |
1.4 论文结构 | 第29-31页 |
第二章 期望离群点检测 | 第31-71页 |
2.1 研究动机 | 第31页 |
2.2 问题定义 | 第31-32页 |
2.3 相关研究 | 第32页 |
2.4 top-K期望离群点检测算法 | 第32-45页 |
2.4.1 tuple期望离群度的计算 | 第33页 |
2.4.2 计算P(t, n, t′) | 第33-37页 |
2.4.3 构造Lt | 第37-42页 |
2.4.4 算法描述 | 第42-44页 |
2.4.5 算法复杂度 | 第44-45页 |
2.5 top-K期望离群点检测算法的优化 | 第45-56页 |
2.5.1 算法优化 1 | 第45-47页 |
2.5.2 算法优化 2 | 第47-52页 |
2.5.3 算法优化 3 | 第52-56页 |
2.6 实验 | 第56-70页 |
2.6.1 数据集 | 第56-60页 |
2.6.2 测试对象与测试指标 | 第60-61页 |
2.6.3 精度 | 第61-63页 |
2.6.4 参数n对优化效果的影响 | 第63-65页 |
2.6.5 参数K对优化效果的影响 | 第65-68页 |
2.6.6 可扩展性 | 第68-70页 |
2.7 本章小结 | 第70-71页 |
第三章 半期望离群点检测 | 第71-101页 |
3.1 研究动机 | 第71-72页 |
3.2 问题定义 | 第72-74页 |
3.3 相关研究 | 第74-75页 |
3.4 不确定数据集上top-(k_1, k_2) 查询 | 第75-82页 |
3.4.1 计算P_(k1)概率 | 第75-77页 |
3.4.2 算法描述 | 第77页 |
3.4.3 算法优化 | 第77-82页 |
3.5 top-(k_1, k_2) 半期望离群点检测算法 | 第82-83页 |
3.5.1 计算tuple得分 | 第82-83页 |
3.5.2 算法描述 | 第83页 |
3.6 top-(k_1, k_2) 半期望离群点检测算法的优化 | 第83-89页 |
3.6.1 优化后的算法描述 | 第86-89页 |
3.6.2 算法复杂度 | 第89页 |
3.7 实验 | 第89-99页 |
3.7.1 测试对象与测试指标 | 第89-90页 |
3.7.2 参数n对算法效率的影响 | 第90-92页 |
3.7.3 概率阈值h_p对算法效率的影响 | 第92-93页 |
3.7.4 参数k_1对算法效率的影响 | 第93-95页 |
3.7.5 参数k_2对算法效率的影响 | 第95-97页 |
3.7.6 算法可扩展性 | 第97-99页 |
3.8 本章小结 | 第99-101页 |
第四章 相对离群点检测 | 第101-119页 |
4.1 研究动机 | 第101-103页 |
4.2 问题定义 | 第103-104页 |
4.3 top-K相对离群点检测算法 | 第104-109页 |
4.3.1 计算一个x-tuple总相对离群度 | 第104-106页 |
4.3.2 比较概率P_(t1>t2)和P_(t2>t1) | 第106-108页 |
4.3.3 算法描述 | 第108-109页 |
4.4 top-K相对离群点检测算法的优化 | 第109页 |
4.5 实验 | 第109-117页 |
4.5.1 数据集 | 第109-112页 |
4.5.2 测试对象 | 第112页 |
4.5.3 测试指标 | 第112页 |
4.5.4 离群点检测效果 | 第112-115页 |
4.5.5 算法可扩展性 | 第115-117页 |
4.6 本章小结 | 第117-119页 |
第五章 全概率离群点检测 | 第119-145页 |
5.1 研究动机 | 第119-120页 |
5.2 问题定义 | 第120-121页 |
5.3 相关研究 | 第121-122页 |
5.3.1 全局top-k查询 / 概率top-k查询 | 第121-122页 |
5.4 简单抽样算法 | 第122-125页 |
5.4.1 抽样次数 | 第123-124页 |
5.4.2 算法复杂度 | 第124-125页 |
5.5 局部抽样算法 | 第125-128页 |
5.5.1 局部邻居区域 | 第125-126页 |
5.5.2 局部抽样算法描述 | 第126-127页 |
5.5.3 算法复杂度 | 第127-128页 |
5.6 优化的局部抽样算法 | 第128-133页 |
5.6.1 抽样 | 第128-129页 |
5.6.2 排序 | 第129-130页 |
5.6.3 剪枝 | 第130-131页 |
5.6.4 优化的局部抽样算法描述 | 第131-133页 |
5.7 进一步改进 | 第133-137页 |
5.7.1 局部相邻聚类区域 | 第133-135页 |
5.7.2 基于局部相邻聚类区域的n近邻检测 | 第135-137页 |
5.7.3 基于局部相邻聚类区域的抽样算法描述 | 第137页 |
5.8 实验 | 第137-142页 |
5.8.1 不确定数据集上的top-(k_1, k_2) 全概率离群点检测实验 | 第137-141页 |
5.8.2 基于局部相邻聚类区域的算法效果实验 | 第141-142页 |
5.9 本章小结 | 第142-145页 |
第六章 总结与展望 | 第145-147页 |
致谢 | 第147-151页 |
参考文献 | 第151-161页 |
作者在学期间取得的学术成果 | 第161-162页 |
附录 | 第162-175页 |