摘要 | 第3-4页 |
Abstract | 第4-5页 |
第1章 绪论 | 第10-19页 |
1.1 选题背景和意义 | 第10-16页 |
1.1.1 近似抽取 | 第12-13页 |
1.1.2 近似连接 | 第13-14页 |
1.1.3 近似检索 | 第14-15页 |
1.1.4 大规模数据处理框架 | 第15-16页 |
1.2 主要研究内容和贡献 | 第16-18页 |
1.3 章节安排 | 第18-19页 |
第2章 支持多相似性函数的近似抽取统一框架 | 第19-49页 |
2.1 引言 | 第19-20页 |
2.2 统一的框架 | 第20-24页 |
2.2.1 问题定义 | 第20-21页 |
2.2.2 统一框架 | 第21-22页 |
2.2.3 有效子字符串 | 第22-24页 |
2.3 基于堆的过滤算法 | 第24-30页 |
2.3.1 倒排索引 | 第24-25页 |
2.3.2 基于多堆的方法 | 第25-27页 |
2.3.3 基于单堆的方法 | 第27-30页 |
2.4 改进基于单堆的算法 | 第30-40页 |
2.4.1 剪枝技术 | 第30-34页 |
2.4.2 快速地找到候选窗口 | 第34-40页 |
2.5 Faerie算法 | 第40-42页 |
2.5.1 正确性和完备性 | 第41-42页 |
2.6 实验 | 第42-46页 |
2.6.1 比较基于多堆的方法和基于单堆的方法 | 第43页 |
2.6.2 剪枝技术的有效性 | 第43-44页 |
2.6.3 与现有的最好的方法的比较 | 第44-45页 |
2.6.4 字典大小的可扩展性 | 第45-46页 |
2.7 相关工作 | 第46-48页 |
2.8 本章小结 | 第48-49页 |
第3章 基于序列相似性的近似连接方法 | 第49-89页 |
3.1 引言 | 第49页 |
3.2 预备知识 | 第49-51页 |
3.2.1 问题定义 | 第49-50页 |
3.2.2 相关工作 | 第50-51页 |
3.3 基于划分的框架 | 第51-56页 |
3.3.1 划分方法 | 第51-52页 |
3.3.2 基于划分的框架 | 第52-56页 |
3.4 优化子字符串选取 | 第56-69页 |
3.4.1 位置敏感的子字符串选取方法 | 第58-61页 |
3.4.2 多段匹配敏感的子字符串选取 | 第61-66页 |
3.4.3 子字符串选取方法的比较 | 第66-68页 |
3.4.4 子字符串选取算法 | 第68-69页 |
3.5 提高验证效率 | 第69-75页 |
3.5.1 长度敏感的验证方法 | 第69-72页 |
3.5.2 基于扩展的验证 | 第72-74页 |
3.5.3 共享计算 | 第74-75页 |
3.5.4 验证算法 | 第75页 |
3.6 进一步讨论 | 第75-81页 |
3.6.1 支持Edit Similarity | 第75-77页 |
3.6.2 支持异连接 | 第77-78页 |
3.6.3 MapReduce下的基于划分的方法 | 第78-81页 |
3.7 实验 | 第81-88页 |
3.7.1 评估子字符串选取方法 | 第81-83页 |
3.7.2 评估验证方法 | 第83-84页 |
3.7.3 与现有最好方法的比较 | 第84-85页 |
3.7.4 可扩展性 | 第85-86页 |
3.7.5 评估在MapReduce下的性能 | 第86-88页 |
3.8 本章小结 | 第88-89页 |
第4章 基于集合相似性的近似连接方法 | 第89-119页 |
4.1 引言 | 第89-90页 |
4.2 预备知识 | 第90-92页 |
4.2.1 问题定义 | 第90页 |
4.2.2 基于前缀过滤的方法 | 第90-91页 |
4.2.3 相关工作 | 第91-92页 |
4.3 基于划分的框架 | 第92-98页 |
4.3.1 集合划分 | 第92-94页 |
4.3.2 基于划分的方法 | 第94-98页 |
4.4 片段选择 | 第98-104页 |
4.4.1 1-删集 | 第98-102页 |
4.4.2 最优分配选择 | 第102-104页 |
4.5 加速分配策略选取 | 第104-109页 |
4.5.1 分配策略选择 | 第105-108页 |
4.5.2 多长度分组机制 | 第108-109页 |
4.6 进一步讨论 | 第109-112页 |
4.6.1 支持其他近似函数 | 第109-110页 |
4.6.2 支持异连接 | 第110页 |
4.6.3 支持MapReduce和Spark框架 | 第110-112页 |
4.7 实验 | 第112-117页 |
4.7.1 评估分配选择算法 | 第112-114页 |
4.7.2 评估多长度分组机制 | 第114-115页 |
4.7.3 与现有的方法比较 | 第115-116页 |
4.7.4 可扩展性 | 第116页 |
4.7.5 评估异连接 | 第116-117页 |
4.7.6 评估算法在Spark下的性能 | 第117页 |
4.8 本章小结 | 第117-119页 |
第5章 基于关键前缀过滤的近似检索方法 | 第119-146页 |
5.1 引言 | 第119-120页 |
5.2 预备知识 | 第120-122页 |
5.2.1 问题定义 | 第120页 |
5.2.2 基于q-gram的过滤技术 | 第120-121页 |
5.2.3 相关工作 | 第121-122页 |
5.3 关键前缀过滤 | 第122-128页 |
5.3.1 关键前缀过滤 | 第123-126页 |
5.3.2 与现有最好方法的比较 | 第126-128页 |
5.4 基于关键前缀的过滤算法 | 第128-131页 |
5.5 关键q-gram选取 | 第131-135页 |
5.5.1 关键前缀的存在性 | 第131-132页 |
5.5.2 评估不同的关键前缀 | 第132-133页 |
5.5.3 关键前缀选取算法 | 第133-135页 |
5.6 在关键q-gram上的对齐过滤 | 第135-139页 |
5.6.1 转换过程中的对齐 | 第136-138页 |
5.6.2 对齐过滤 | 第138页 |
5.6.3 验证算法 | 第138-139页 |
5.7 支持动态阈值 | 第139-141页 |
5.8 实验 | 第141-145页 |
5.8.1 评估关键前缀过滤技术 | 第142-143页 |
5.8.2 评估对齐过滤 | 第143-144页 |
5.8.3 与现有最好方法的比较 | 第144-145页 |
5.8.4 可扩展性 | 第145页 |
5.9 本章小结 | 第145-146页 |
第6章 总结与展望 | 第146-148页 |
6.1 本文工作总结 | 第146-147页 |
6.2 未来工作展望 | 第147-148页 |
参考文献 | 第148-153页 |
致谢 | 第153-155页 |
个人简历、在学期间发表的学术论文与研究成果 | 第155-157页 |