基于网页正文结构树的近似网页去重算法研究

摘要	第3-4页
ABSTRACT	第4-5页
1 绪论	第8-15页
1.1 研究背景	第8-9页
1.2 研究的意义	第9-10页
1.3 信息检索与搜索引擎	第10-14页
1.3.1 信息检索	第10页
1.3.2 搜索引擎	第10页
1.3.3 搜索引擎的分类	第10-14页
1.4 论文结构	第14-15页
2 相关技术研究	第15-23页
2.1 文本复制检测	第15-16页
2.2 国内外去重方法介绍	第16-21页
2.2.1 基于 URL 的去重	第16页
2.2.2 基于特征串匹配的去重算法	第16-18页
2.2.3 基于聚类去重算法	第18-21页
2.3 去重时机	第21页
2.4 论文主要创新点	第21-22页
2.5 本章小结	第22-23页
3 基于正文结构树及关键句的去重算法	第23-32页
3.1 正文结构树	第25-26页
3.1.1 标签权值设定	第25页
3.1.2 正文结构树的表示	第25-26页
3.2 转载网页的特点	第26-27页
3.3 基于正文结构树和特征句去重算法	第27-30页
3.3.1 基于正文结构树和长句去重算法基本思想	第27页
3.3.2 基于正文结构树和长句去重算法的劣势	第27-28页
3.3.3 特征句的选取	第28-30页
3.4 基于长句和基于关键句的特征句数目的比较	第30-31页
3.5 本章小结	第31-32页
4 基于网页正文结构及特征串的近似网页去重算法	第32-44页
4.1 近似重复网页的重复模式	第32-33页
4.2 对正文结构树算法的部分改进	第33-34页
4.3 Bloom Filter 算法	第34-37页
4.3.1 Bloom Filter 基本原理	第34-36页
4.3.2 Bloom Filter 算法的实现	第36-37页
4.4 特征串的提取	第37-38页
4.5 算法流程流程	第38-42页
4.5.1 标题匹配	第39-40页
4.5.2 关键词的匹配	第40页
4.5.3 各层节点的匹配	第40-42页
4.6 去重时间分析	第42-43页
4.7 对于分页网页的处理	第43页
4.8 本章小结	第43-44页
5 实验结果及分析	第44-50页
5.1 算法的评估	第44-46页
5.2 算法的抗噪性	第46-49页
5.3 本章小结	第49-50页
6 总结与展望	第50-51页
致谢	第51-52页
参考文献	第52-55页
附录	第55页
A. 作者在攻读硕士学位期间发表的论文目录	第55页