大规模字符串连接的并行化研究与应用

摘要	第2-4页
ABSTRACT	第4-5页
第1章绪论	第8-12页
1.1 课题背景及意义	第8-9页
1.2 国内外研究现状	第9-10页
1.3 论文研究内容	第10-11页
1.4 论文织结构	第11-12页
第2章字符串相似性连接技术研究	第12-23页
2.1 相关定义及概念	第12-13页
2.2 字符串相似度的度量方法	第13-18页
2.2.1 基于特征的度量方法	第13-14页
2.2.2 基于集合的度量方法	第14-18页
2.3 字符串相似性连接方法	第18-22页
2.3.1 基于特征的过滤验证算法	第19-20页
2.3.2 基于树型结构的算法	第20-22页
2.4 本章小结	第22-23页
第3章基于内存的并行化连接方法	第23-37页
3.1 相关符号定义	第23-24页
3.2 Para-Join算法框架	第24-25页
3.3 Para-Join的数据划分及相似度计算	第25-28页
3.3.1 数据划分	第25-27页
3.3.2 相似度计算	第27-28页
3.4 Para-Join的连接过程	第28-32页
3.4.1 Para-Join算法的实现	第28-30页
3.4.2 Para-RR与Para-RS的实现	第30-32页
3.5 实验结果与分析	第32-35页
3.5.1 实验设置	第32页
3.5.2 评价Para-Join算法	第32-33页
3.5.3 Para-Join与已有算法的比较	第33-34页
3.5.4 Para-Join算法的优势与不足	第34-35页
3.6 本章小结	第35-37页
第4章基于Spark框架的Spss-Join算法	第37-51页
4.1 常见的并行化处理框架	第37-40页
4.1.1 Hadoop框架	第37-38页
4.1.2 Spark框架	第38-40页
4.2 MapReduce在字符串相似度连接中的应用	第40-45页
4.2.1 MapReduce模型	第40-42页
4.2.2 处理流程	第42-44页
4.2.3 优点与不足	第44-45页
4.3 基于Spark框架的Spss-Join算法实现	第45-48页
4.3.1 Token集划分	第45-46页
4.3.2 数据过滤	第46-48页
4.3.3 数据验证	第48页
4.4 实验结果与分析	第48-50页
4.4.1 实验设置	第48页
4.4.2 算法评价	第48-50页
4.5 本章小结	第50-51页
第5章系统原型	第51-57页
5.1 系统框架	第51-54页
5.1.1 硬件架构	第51页
5.1.2 功能架构	第51-54页
5.2 运行结果	第54-55页
5.3 本章小结	第55-57页
第6章总结及展望	第57-59页
6.1 论文总结	第57页
6.2 工作展望	第57-59页
参考文献	第59-62页
致谢	第62-63页
攻读硕士学位期间发表的论文	第63页