首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于区间的文本相似搜索及其在档案清洗中的应用

摘要第4-5页
Abstract第5页
第1章 绪论第10-12页
    1.1 研究背景第10-11页
    1.2 本文的主要工作第11-12页
第2章 相似搜索的基本概念及方法第12-22页
    2.1 相似性与距离函数第12-14页
    2.2 查询种类第14-15页
        2.2.1 范围查询第14页
        2.2.2 最近邻查询第14-15页
        2.2.3 相似连接第15页
        2.2.4 混合查询第15页
    2.3 数据分区第15-16页
    2.4 查询执行第16-19页
        2.4.1 基本查询第16-18页
        2.4.2 增量查询第18-19页
    2.5 减少距离计算第19-22页
        2.5.1 球面分区中的剪枝第19-20页
        2.5.2 平面分区的剪枝第20页
        2.5.3 参考点过滤第20页
        2.5.4 离转换第20-22页
第3章 文本相似性的研究第22-37页
    3.1 文档相似性研究第22-28页
        3.1.1 向量空间模型第22-23页
        3.1.2 潜在语义索引第23-24页
        3.1.3 BM25模型第24-27页
        3.1.4 其他模型第27-28页
    3.2 字符串相似性研究第28-37页
        3.2.1 集合的相似性第28-29页
        3.2.2 编辑距离第29-30页
        3.2.3 过滤—验证框架第30-33页
        3.2.4 计算交集的大小第33-37页
第4章 基于区间的文本相似搜索第37-52页
    4.1 带位置信息的倒排索引第37-38页
    4.2 基于区间的文本精确搜索第38-39页
    4.3 基于区间的文本相似搜索第39-40页
    4.4 逐步匹配和合并算法第40-52页
        4.4.1 精确搜索中的匹配过程第42-45页
        4.4.2 基于对称差的匹配过程第45-50页
        4.4.3 基于Jaccard系数的匹配合并第50-51页
        4.4.4 基于编辑距离的匹配合并第51-52页
第5章 基于区间的文本相似搜索在档案清洗中的应用第52-65页
    5.1 档案清洗第52-53页
        5.1.1 档案特性第52-53页
        5.1.2 档案在数字化过程中存在的问题第53页
        5.1.3 档案清洗的需求第53页
    5.2 基于Lucene的算法实现第53-59页
        5.2.1 Lucene简介第54页
        5.2.2 索引文档第54-55页
        5.2.3 搜索文档第55-56页
        5.2.4 索引文件第56-57页
        5.2.5 算法实现第57-59页
    5.3 数据及实验分析第59-65页
        5.3.1 索引时间第60-61页
        5.3.2 最小长度阈值第61-62页
        5.3.3 最大距离阈值第62-63页
        5.3.4 效率分析第63-65页
第6章 讨论与总结第65-68页
    6.1 讨论第65页
    6.2 总结第65-66页
    6.3 展望第66-68页
参考文献第68-71页
致谢第71-72页
附录第72-73页

论文共73页,点击 下载论文
上一篇:水分子诱导氢终止硅的老化及荧光光谱红移的理论研究
下一篇:YQ软胶囊的药学研究