首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

结合汉明距离及语义的文本相似度量方法研究

摘要第5-6页
ABSTRACT第6-7页
1 绪论第10-16页
    1.1 研究背景第10-11页
    1.2 文本相似度量国内外研究现状第11-13页
        1.2.1 基于统计学的研究现状第11-12页
        1.2.2 基于语义分析的研究现状第12-13页
    1.3 研究意义及内容第13-14页
        1.3.1 研究意义第13页
        1.3.2 研究内容及创新第13-14页
    1.4 内容组织安排第14-15页
    1.5 本章小结第15-16页
2 文本处理相关理论概述第16-26页
    2.1 文本表示第16-19页
        2.1.1 VSM模型第16-17页
        2.1.2 BM模型第17-18页
        2.1.3 LDA模型第18-19页
    2.2 SM简介第19-22页
        2.2.1 Cosine余弦度量第19-20页
        2.2.2 Jaccard度量第20-21页
        2.2.3 Hamming度量第21-22页
    2.3 文本预处理第22-25页
        2.3.1 常用分词法简介第23-24页
        2.3.2 去停用词第24页
        2.3.3 预处理图示第24-25页
    2.4 本章小结第25-26页
3 结合汉明距离及语义的HSim算法第26-47页
    3.1 计算模型选定第26-28页
        3.1.1 模型优劣对比第26-28页
    3.2 文本词项化第28-30页
    3.3 词项义原化第30-36页
        3.3.1 语义词典选择第30-33页
        3.3.2 义原归化第33-36页
    3.4 相似度计算第36-41页
        3.4.1 HMT的应用第36-37页
        3.4.2 HMT与DPS的有机结合第37-39页
        3.4.3 算法设计第39-41页
    3.5 仿真实验及参数选定第41-46页
        3.5.1 数据及预处理第42页
        3.5.2 参数确定第42-44页
        3.5.3 性能比较第44-45页
        3.5.4 适用性验证第45-46页
    3.6 本章总结第46-47页
4 HSim算法性能及适用性改进第47-54页
    4.1 汉明归化改进第47-48页
        4.1.1 DMP优化第47-48页
        4.1.2 CZ优化第48页
    4.2 义原归化改进第48-49页
    4.3 优化实现第49页
    4.4 改进方案仿真验证第49-53页
        4.4.1 性能验证第50-51页
        4.4.2 长度适用验证第51-52页
        4.4.3 类型适用验证第52-53页
    4.5 本章总结第53-54页
5 总结及展望第54-56页
    5.1 本文总结第54-55页
    5.2 工作展望第55-56页
致谢第56-57页
参考文献第57-61页
附录 作者在读期间发表的学术论文及参加的科研项目第61-62页
硕士学位论文详细摘要第62-64页

论文共64页,点击 下载论文
上一篇:基于GPR预判模型的海量日志流实时异常检测研究
下一篇:基于数据流的分布式并行谱聚类算法的研究