结合汉明距离及语义的文本相似度量方法研究

摘要	第5-6页
ABSTRACT	第6-7页
1 绪论	第10-16页
1.1 研究背景	第10-11页
1.2 文本相似度量国内外研究现状	第11-13页
1.2.1 基于统计学的研究现状	第11-12页
1.2.2 基于语义分析的研究现状	第12-13页
1.3 研究意义及内容	第13-14页
1.3.1 研究意义	第13页
1.3.2 研究内容及创新	第13-14页
1.4 内容组织安排	第14-15页
1.5 本章小结	第15-16页
2 文本处理相关理论概述	第16-26页
2.1 文本表示	第16-19页
2.1.1 VSM模型	第16-17页
2.1.2 BM模型	第17-18页
2.1.3 LDA模型	第18-19页
2.2 SM简介	第19-22页
2.2.1 Cosine余弦度量	第19-20页
2.2.2 Jaccard度量	第20-21页
2.2.3 Hamming度量	第21-22页
2.3 文本预处理	第22-25页
2.3.1 常用分词法简介	第23-24页
2.3.2 去停用词	第24页
2.3.3 预处理图示	第24-25页
2.4 本章小结	第25-26页
3 结合汉明距离及语义的HSim算法	第26-47页
3.1 计算模型选定	第26-28页
3.1.1 模型优劣对比	第26-28页
3.2 文本词项化	第28-30页
3.3 词项义原化	第30-36页
3.3.1 语义词典选择	第30-33页
3.3.2 义原归化	第33-36页
3.4 相似度计算	第36-41页
3.4.1 HMT的应用	第36-37页
3.4.2 HMT与DPS的有机结合	第37-39页
3.4.3 算法设计	第39-41页
3.5 仿真实验及参数选定	第41-46页
3.5.1 数据及预处理	第42页
3.5.2 参数确定	第42-44页
3.5.3 性能比较	第44-45页
3.5.4 适用性验证	第45-46页
3.6 本章总结	第46-47页
4 HSim算法性能及适用性改进	第47-54页
4.1 汉明归化改进	第47-48页
4.1.1 DMP优化	第47-48页
4.1.2 CZ优化	第48页
4.2 义原归化改进	第48-49页
4.3 优化实现	第49页
4.4 改进方案仿真验证	第49-53页
4.4.1 性能验证	第50-51页
4.4.2 长度适用验证	第51-52页
4.4.3 类型适用验证	第52-53页
4.5 本章总结	第53-54页
5 总结及展望	第54-56页
5.1 本文总结	第54-55页
5.2 工作展望	第55-56页
致谢	第56-57页
参考文献	第57-61页
附录作者在读期间发表的学术论文及参加的科研项目	第61-62页
硕士学位论文详细摘要	第62-64页