搜索引擎中网页查重方法的研究
摘要 | 第1-5页 |
Abstract | 第5-11页 |
第一章 绪论 | 第11-15页 |
·课题背景及意义 | 第11-12页 |
·网页查重所面临的问题 | 第12-13页 |
·本课题的任务 | 第13-15页 |
第二章 网页净化 | 第15-35页 |
·网页净化方法分析 | 第16-17页 |
·可视布局信息法 | 第17-18页 |
·利用 DOM TREE进行网页净化 | 第18-35页 |
·xml及其结构特征和模式 | 第19-22页 |
·DOM | 第22-25页 |
·XPATH介绍 | 第25-26页 |
·Jtidy介绍 | 第26-27页 |
·使用 Jtidy进行网页净化 | 第27-35页 |
第三章 网页相似性检测方法 | 第35-55页 |
·URL分析 | 第36页 |
·链接分析 | 第36-40页 |
·单个网页相似性分析 | 第36-37页 |
·网页集合相似度分析方法 | 第37-40页 |
·内容分析 | 第40-44页 |
·DSC和 DSC-SS方法 | 第41-42页 |
·I-Match方法 | 第42-43页 |
·基于关键词匹配的向量空间模型的检测方法 | 第43-44页 |
·三种相似性检测方法的分析与比较 | 第44页 |
·基于bloom filter的相似性检测方法 | 第44-55页 |
·网页特征项的粒度分析 | 第45-47页 |
·Rabin fingerprints介绍 | 第47-48页 |
·使用bloom filter查重 | 第48页 |
·基于内容的内容块 | 第48-49页 |
·Hash | 第49页 |
·Bloom filter | 第49-51页 |
·利用bloom filter测试相似性 | 第51-55页 |
第四章 网页查重的分析与实现 | 第55-63页 |
·分析 | 第55-56页 |
·网页查重的实现 | 第56-63页 |
·设备和对象 | 第58页 |
·bloom filter的确定 | 第58页 |
·相似度的影响 | 第58-59页 |
·查询词的影响 | 第59-61页 |
·响应时间 | 第61-63页 |
第五章 课题总结 | 第63-67页 |
参考文献 | 第67-71页 |
致谢 | 第71-73页 |
攻读硕士学位期间发表的论文 | 第73-74页 |
作者和导师简介 | 第74-75页 |
硕士研究生学位论文答辩委员会决议书 | 第75-76页 |