摘要 | 第3-4页 |
Abstract | 第4页 |
第1章 概述 | 第7-14页 |
1.1 研究的背景及意义 | 第7-8页 |
1.2 国内外研究现状 | 第8-12页 |
1.2.1 国外研究现状 | 第8-10页 |
1.2.2 国内研究现状 | 第10-12页 |
1.3 研究目标与内容 | 第12-13页 |
1.3.1 研究目标 | 第12页 |
1.3.2 研究内容 | 第12-13页 |
1.4 论文专业术语对照表 | 第13页 |
1.5 论文结构 | 第13-14页 |
第2章 网页去重及相似度判断流程与关键技术 | 第14-26页 |
2.1 文本重复及相似概述 | 第14页 |
2.2 网页去重及相似度判断流程 | 第14-16页 |
2.3 网页去重及相似度判断关键技术 | 第16页 |
2.4 样本集来源 | 第16页 |
2.5 网页预处理及正文内容提取 | 第16-22页 |
2.5.1 网页预处理 | 第16-17页 |
2.5.2 网页正文内容提取 | 第17-22页 |
2.6 中文分词及特征提取 | 第22-24页 |
2.6.1 分词方法选择 | 第22-23页 |
2.6.2 特征加权算法 | 第23-24页 |
2.7 本章小结 | 第24-26页 |
第3章 网页去重及相似度判断算法及实现 | 第26-36页 |
3.1 MD5 算法 | 第26-27页 |
3.1.1 MD5 算法的实现 | 第27页 |
3.2 向量空间模型 | 第27-30页 |
3.2.1 向量空间模型实现 | 第29-30页 |
3.3 基于《知网》的语义相似度计算 | 第30-32页 |
3.3.1 《知网》简介 | 第30页 |
3.3.2 基于《知网》的词汇语义相似度的计算 | 第30-32页 |
3.4 潜在语义分析 | 第32-35页 |
3.4.1 LSA 具体实现 | 第33-35页 |
3.5 本章小结 | 第35-36页 |
第4章 中文农业网页去重及相似度判断实验及结果分析 | 第36-48页 |
4.1 相似度判断评价标准 | 第36页 |
4.2 实验及结果分析 | 第36-47页 |
4.2.1 样本集构建 | 第36页 |
4.2.2 网页去重实验结果 | 第36页 |
4.2.3 不同相似度判断方法的实验结果 | 第36-41页 |
4.2.4 相同相似度计算方法不同权重的结果对比 | 第41-43页 |
4.2.5 相同相似度判断方法不同权重结果比较 | 第43-44页 |
4.2.6 相同权重不同相似度判断方法结果比较 | 第44-47页 |
4.3 本章小结 | 第47-48页 |
第5章 总结与展望 | 第48-50页 |
5.1 总结 | 第48页 |
5.2 研究展望 | 第48-50页 |
参考文献 | 第50-54页 |
致谢 | 第54-55页 |
作者简历 | 第55页 |