首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Simhash的文本相似性检测研究与改进

摘要第5-6页
abstract第6页
主要英文缩写与中英文对照表第7-13页
第一章 引言第13-19页
    1.1 研究背景意义第13-14页
    1.2 国内外研究现状第14-16页
        1.2.1 国外研究现状第14-15页
        1.2.2 国内研究现状第15-16页
    1.3 研究内容及创新点第16页
    1.4 论文结构第16-17页
    1.5 本章小结第17-19页
第二章 文本重复检测算法研究第19-29页
    2.1 文本相似度算法概述第19-23页
        2.1.1 布尔模型第19-20页
        2.1.2 向量空间模型第20-22页
        2.1.3 概率模型第22-23页
        2.1.4 基于本体论模型第23页
    2.2 Simhash算法的提出第23-27页
        2.2.1 Simhash算法原理第24-25页
        2.2.2 Simhash流程图第25-26页
        2.2.3 Simhash相似度计算方法第26-27页
    2.3 本章小结第27-29页
第三章 基于Simhash文本重复检测算法分析第29-37页
    3.1 文本分词处理第29-31页
        3.1.1 中文分词第29-30页
        3.1.2 停用词过滤第30-31页
    3.2 Simhash指纹第31-34页
        3.2.1 获取目标文档特征第31页
        3.2.2 计算特征词权重第31-33页
        3.2.3 Simhash指纹储存第33-34页
    3.3 Simhash快速检索方法第34-36页
    3.4 本章小结第36-37页
第四章 局部短文本重复检测改进第37-47页
    4.1 局部短文本介绍第37-38页
        4.1.1 短文本概念第37-38页
        4.1.2 局部短文本定义第38页
    4.2 相似局部短文本识别第38-46页
        4.2.1 局部短文本匹配第38-41页
        4.2.2 文本编辑距离计算第41-44页
        4.2.3 基于语义词典的相似计算方法第44-46页
    4.3 本章小结第46-47页
第五章 实验设计与实现第47-61页
    5.1 实验设计思想和结构第47-50页
        5.1.1 实验设置和数据第47-48页
        5.1.2 实验流程第48-50页
    5.2 Simhash快速检索实验第50-54页
        5.2.1 指纹库建立时间第51-52页
        5.2.2 检索时间分析第52-53页
        5.2.3 检索召回率和正确率第53-54页
    5.3 局部相似文本识别测试第54-56页
        5.3.1 局部相似召回率和正确率分析第55-56页
    5.4 系统介绍第56-59页
        5.4.1 系统构架第56-57页
        5.4.2 系统实现第57-59页
    5.5 结果分析第59-60页
    5.6 本章小结第60-61页
第六章 结论与展望第61-63页
    6.1 结论第61页
    6.2 进一步研究方向第61-63页
总结与体会第63-64页
致谢第64-65页
参考文献第65-69页
附录A 攻读硕士学位期间主要成果第69-71页
附录B第71-89页

论文共89页,点击 下载论文
上一篇:基于词嵌入的词义消歧方法的研究
下一篇:基于事件链结构中文新闻事件关联关系识别方法研究