大数据处理中的容错技术研究

摘要	第3-4页
Abstract	第4-5页
第1章绪论	第10-19页
1.1 选题背景和意义	第10-16页
1.1.1 近似抽取	第12-13页
1.1.2 近似连接	第13-14页
1.1.3 近似检索	第14-15页
1.1.4 大规模数据处理框架	第15-16页
1.2 主要研究内容和贡献	第16-18页
1.3 章节安排	第18-19页
第2章支持多相似性函数的近似抽取统一框架	第19-49页
2.1 引言	第19-20页
2.2 统一的框架	第20-24页
2.2.1 问题定义	第20-21页
2.2.2 统一框架	第21-22页
2.2.3 有效子字符串	第22-24页
2.3 基于堆的过滤算法	第24-30页
2.3.1 倒排索引	第24-25页
2.3.2 基于多堆的方法	第25-27页
2.3.3 基于单堆的方法	第27-30页
2.4 改进基于单堆的算法	第30-40页
2.4.1 剪枝技术	第30-34页
2.4.2 快速地找到候选窗口	第34-40页
2.5 Faerie算法	第40-42页
2.5.1 正确性和完备性	第41-42页
2.6 实验	第42-46页
2.6.1 比较基于多堆的方法和基于单堆的方法	第43页
2.6.2 剪枝技术的有效性	第43-44页
2.6.3 与现有的最好的方法的比较	第44-45页
2.6.4 字典大小的可扩展性	第45-46页
2.7 相关工作	第46-48页
2.8 本章小结	第48-49页
第3章基于序列相似性的近似连接方法	第49-89页
3.1 引言	第49页
3.2 预备知识	第49-51页
3.2.1 问题定义	第49-50页
3.2.2 相关工作	第50-51页
3.3 基于划分的框架	第51-56页
3.3.1 划分方法	第51-52页
3.3.2 基于划分的框架	第52-56页
3.4 优化子字符串选取	第56-69页
3.4.1 位置敏感的子字符串选取方法	第58-61页
3.4.2 多段匹配敏感的子字符串选取	第61-66页
3.4.3 子字符串选取方法的比较	第66-68页
3.4.4 子字符串选取算法	第68-69页
3.5 提高验证效率	第69-75页
3.5.1 长度敏感的验证方法	第69-72页
3.5.2 基于扩展的验证	第72-74页
3.5.3 共享计算	第74-75页
3.5.4 验证算法	第75页
3.6 进一步讨论	第75-81页
3.6.1 支持Edit Similarity	第75-77页
3.6.2 支持异连接	第77-78页
3.6.3 MapReduce下的基于划分的方法	第78-81页
3.7 实验	第81-88页
3.7.1 评估子字符串选取方法	第81-83页
3.7.2 评估验证方法	第83-84页
3.7.3 与现有最好方法的比较	第84-85页
3.7.4 可扩展性	第85-86页
3.7.5 评估在MapReduce下的性能	第86-88页
3.8 本章小结	第88-89页
第4章基于集合相似性的近似连接方法	第89-119页
4.1 引言	第89-90页
4.2 预备知识	第90-92页
4.2.1 问题定义	第90页
4.2.2 基于前缀过滤的方法	第90-91页
4.2.3 相关工作	第91-92页
4.3 基于划分的框架	第92-98页
4.3.1 集合划分	第92-94页
4.3.2 基于划分的方法	第94-98页
4.4 片段选择	第98-104页
4.4.1 1-删集	第98-102页
4.4.2 最优分配选择	第102-104页
4.5 加速分配策略选取	第104-109页
4.5.1 分配策略选择	第105-108页
4.5.2 多长度分组机制	第108-109页
4.6 进一步讨论	第109-112页
4.6.1 支持其他近似函数	第109-110页
4.6.2 支持异连接	第110页
4.6.3 支持MapReduce和Spark框架	第110-112页
4.7 实验	第112-117页
4.7.1 评估分配选择算法	第112-114页
4.7.2 评估多长度分组机制	第114-115页
4.7.3 与现有的方法比较	第115-116页
4.7.4 可扩展性	第116页
4.7.5 评估异连接	第116-117页
4.7.6 评估算法在Spark下的性能	第117页
4.8 本章小结	第117-119页
第5章基于关键前缀过滤的近似检索方法	第119-146页
5.1 引言	第119-120页
5.2 预备知识	第120-122页
5.2.1 问题定义	第120页
5.2.2 基于q-gram的过滤技术	第120-121页
5.2.3 相关工作	第121-122页
5.3 关键前缀过滤	第122-128页
5.3.1 关键前缀过滤	第123-126页
5.3.2 与现有最好方法的比较	第126-128页
5.4 基于关键前缀的过滤算法	第128-131页
5.5 关键q-gram选取	第131-135页
5.5.1 关键前缀的存在性	第131-132页
5.5.2 评估不同的关键前缀	第132-133页
5.5.3 关键前缀选取算法	第133-135页
5.6 在关键q-gram上的对齐过滤	第135-139页
5.6.1 转换过程中的对齐	第136-138页
5.6.2 对齐过滤	第138页
5.6.3 验证算法	第138-139页
5.7 支持动态阈值	第139-141页
5.8 实验	第141-145页
5.8.1 评估关键前缀过滤技术	第142-143页
5.8.2 评估对齐过滤	第143-144页
5.8.3 与现有最好方法的比较	第144-145页
5.8.4 可扩展性	第145页
5.9 本章小结	第145-146页
第6章总结与展望	第146-148页
6.1 本文工作总结	第146-147页
6.2 未来工作展望	第147-148页
参考文献	第148-153页
致谢	第153-155页
个人简历、在学期间发表的学术论文与研究成果	第155-157页