中文农业网页去重及相似度判断研究

摘要	第3-4页
Abstract	第4页
第1章概述	第7-14页
1.1 研究的背景及意义	第7-8页
1.2 国内外研究现状	第8-12页
1.2.1 国外研究现状	第8-10页
1.2.2 国内研究现状	第10-12页
1.3 研究目标与内容	第12-13页
1.3.1 研究目标	第12页
1.3.2 研究内容	第12-13页
1.4 论文专业术语对照表	第13页
1.5 论文结构	第13-14页
第2章网页去重及相似度判断流程与关键技术	第14-26页
2.1 文本重复及相似概述	第14页
2.2 网页去重及相似度判断流程	第14-16页
2.3 网页去重及相似度判断关键技术	第16页
2.4 样本集来源	第16页
2.5 网页预处理及正文内容提取	第16-22页
2.5.1 网页预处理	第16-17页
2.5.2 网页正文内容提取	第17-22页
2.6 中文分词及特征提取	第22-24页
2.6.1 分词方法选择	第22-23页
2.6.2 特征加权算法	第23-24页
2.7 本章小结	第24-26页
第3章网页去重及相似度判断算法及实现	第26-36页
3.1 MD5 算法	第26-27页
3.1.1 MD5 算法的实现	第27页
3.2 向量空间模型	第27-30页
3.2.1 向量空间模型实现	第29-30页
3.3 基于《知网》的语义相似度计算	第30-32页
3.3.1 《知网》简介	第30页
3.3.2 基于《知网》的词汇语义相似度的计算	第30-32页
3.4 潜在语义分析	第32-35页
3.4.1 LSA 具体实现	第33-35页
3.5 本章小结	第35-36页
第4章中文农业网页去重及相似度判断实验及结果分析	第36-48页
4.1 相似度判断评价标准	第36页
4.2 实验及结果分析	第36-47页
4.2.1 样本集构建	第36页
4.2.2 网页去重实验结果	第36页
4.2.3 不同相似度判断方法的实验结果	第36-41页
4.2.4 相同相似度计算方法不同权重的结果对比	第41-43页
4.2.5 相同相似度判断方法不同权重结果比较	第43-44页
4.2.6 相同权重不同相似度判断方法结果比较	第44-47页
4.3 本章小结	第47-48页
第5章总结与展望	第48-50页
5.1 总结	第48页
5.2 研究展望	第48-50页
参考文献	第50-54页
致谢	第54-55页
作者简历	第55页