面向大数据的相似性连接算法的研究与实现

摘要	第5-6页
Abstract	第6页
第1章绪论	第11-15页
1.1 研究背景	第11-12页
1.2 研究目的和意义	第12-13页
1.3 本文主要内容	第13页
1.4 本文组织结构	第13-15页
第2章相关研究工作	第15-25页
2.1 相似度计算关键技术	第15-18页
2.1.1 相似度计算函数	第15-17页
2.1.2 相似连接技术研究现状	第17-18页
2.2 分布式计算框架	第18-23页
2.2.1 Hadoop分布式计算框架	第18-20页
2.2.2 Spark分布式计算框架	第20-23页
2.3 本章小结	第23-25页
第3章分布式位置信息相似连接	第25-39页
3.1 分布式前缀过滤相似连接	第25-29页
3.1.1 分布式前缀过滤Self-Join	第25-27页
3.1.2 分布式前缀过滤RS-Join	第27-28页
3.1.3 分布式前缀过滤改进算法O-T相似连接	第28-29页
3.2 双缀过滤算法PSFilter	第29-35页
3.2.1 问题描述	第29-32页
3.2.2 算法描述	第32-34页
3.2.3 分布式双缀过滤相似连接PSJoin	第34-35页
3.3 双缀过滤改进算法PSPFilter	第35-38页
3.3.1 算法描述	第35-37页
3.3.2 分布式双缀过滤改进相似连接PSJoin+	第37-38页
3.4 本章小结	第38-39页
第4章分布式自适应相似连接	第39-51页
4.1 问题描述	第39-43页
4.1.1 l-length固定长度前缀过滤	第39-41页
4.1.2 可变前缀长度最佳长度选取	第41-43页
4.2 分布式自适应相似连接Adap Join	第43-49页
4.2.1 基于Hadoop的Ad Join	第43-46页
4.2.2 基于Spark的Adap Join	第46-48页
4.2.3 分布式Adap Join过滤算法改进	第48-49页
4.3 本章小结	第49-51页
第5章分布式权重相似连接	第51-63页
5.1 问题描述	第51-53页
5.1.1 权重相似度的定义	第51-52页
5.1.2 基于权重相似连接	第52-53页
5.1.3 权重计算	第53页
5.2 分布式权重过滤算法WTBFilter	第53-56页
5.2.1 基于权重过滤算法的基本思想	第53-55页
5.2.2 算法描述	第55-56页
5.2.3 分布式权重过滤相似连接WTBJoin	第56页
5.3 分布式后缀权重过滤算法WTFilter	第56-58页
5.3.1 基于后缀权重信息过滤算法基本思想	第56-57页
5.3.2 算法描述	第57-58页
5.3.3 分布式权重后缀过滤相似连接WTJoin	第58页
5.4 分布式权重过滤改进算法WTPFilter	第58-61页
5.4.1 基于权重过滤改进算法WTPFilter基本思想	第58-60页
5.4.2 算法描述	第60页
5.4.3 分布式权重过滤改进算法的相似连接WTPJoin	第60-61页
5.5 本章小结	第61-63页
第6章实验及结果分析	第63-77页
6.1 实验环境与数据集信息	第63-64页
6.1.1 实验环境介绍	第63页
6.1.2 数据集信息	第63-64页
6.2 实验结果与性能分析	第64-77页
6.2.1 基于前缀过滤算法实验结果与性能分析	第64-72页
6.2.2 基于权重过滤算法实验结果与性能分析	第72-75页
6.2.3 本章小结	第75-77页
第7章总结与展望	第77-79页
7.1 本文工作总结	第77-78页
7.2 下一步工作	第78-79页
参考文献	第79-83页
致谢	第83-85页
攻硕期间参加的项目以及成果	第85页