基于区间的文本相似搜索及其在档案清洗中的应用
摘要 | 第4-5页 |
Abstract | 第5页 |
第1章 绪论 | 第10-12页 |
1.1 研究背景 | 第10-11页 |
1.2 本文的主要工作 | 第11-12页 |
第2章 相似搜索的基本概念及方法 | 第12-22页 |
2.1 相似性与距离函数 | 第12-14页 |
2.2 查询种类 | 第14-15页 |
2.2.1 范围查询 | 第14页 |
2.2.2 最近邻查询 | 第14-15页 |
2.2.3 相似连接 | 第15页 |
2.2.4 混合查询 | 第15页 |
2.3 数据分区 | 第15-16页 |
2.4 查询执行 | 第16-19页 |
2.4.1 基本查询 | 第16-18页 |
2.4.2 增量查询 | 第18-19页 |
2.5 减少距离计算 | 第19-22页 |
2.5.1 球面分区中的剪枝 | 第19-20页 |
2.5.2 平面分区的剪枝 | 第20页 |
2.5.3 参考点过滤 | 第20页 |
2.5.4 离转换 | 第20-22页 |
第3章 文本相似性的研究 | 第22-37页 |
3.1 文档相似性研究 | 第22-28页 |
3.1.1 向量空间模型 | 第22-23页 |
3.1.2 潜在语义索引 | 第23-24页 |
3.1.3 BM25模型 | 第24-27页 |
3.1.4 其他模型 | 第27-28页 |
3.2 字符串相似性研究 | 第28-37页 |
3.2.1 集合的相似性 | 第28-29页 |
3.2.2 编辑距离 | 第29-30页 |
3.2.3 过滤—验证框架 | 第30-33页 |
3.2.4 计算交集的大小 | 第33-37页 |
第4章 基于区间的文本相似搜索 | 第37-52页 |
4.1 带位置信息的倒排索引 | 第37-38页 |
4.2 基于区间的文本精确搜索 | 第38-39页 |
4.3 基于区间的文本相似搜索 | 第39-40页 |
4.4 逐步匹配和合并算法 | 第40-52页 |
4.4.1 精确搜索中的匹配过程 | 第42-45页 |
4.4.2 基于对称差的匹配过程 | 第45-50页 |
4.4.3 基于Jaccard系数的匹配合并 | 第50-51页 |
4.4.4 基于编辑距离的匹配合并 | 第51-52页 |
第5章 基于区间的文本相似搜索在档案清洗中的应用 | 第52-65页 |
5.1 档案清洗 | 第52-53页 |
5.1.1 档案特性 | 第52-53页 |
5.1.2 档案在数字化过程中存在的问题 | 第53页 |
5.1.3 档案清洗的需求 | 第53页 |
5.2 基于Lucene的算法实现 | 第53-59页 |
5.2.1 Lucene简介 | 第54页 |
5.2.2 索引文档 | 第54-55页 |
5.2.3 搜索文档 | 第55-56页 |
5.2.4 索引文件 | 第56-57页 |
5.2.5 算法实现 | 第57-59页 |
5.3 数据及实验分析 | 第59-65页 |
5.3.1 索引时间 | 第60-61页 |
5.3.2 最小长度阈值 | 第61-62页 |
5.3.3 最大距离阈值 | 第62-63页 |
5.3.4 效率分析 | 第63-65页 |
第6章 讨论与总结 | 第65-68页 |
6.1 讨论 | 第65页 |
6.2 总结 | 第65-66页 |
6.3 展望 | 第66-68页 |
参考文献 | 第68-71页 |
致谢 | 第71-72页 |
附录 | 第72-73页 |