搜索引擎中网页查重方法的研究
| 摘要 | 第1-5页 |
| Abstract | 第5-11页 |
| 第一章 绪论 | 第11-15页 |
| ·课题背景及意义 | 第11-12页 |
| ·网页查重所面临的问题 | 第12-13页 |
| ·本课题的任务 | 第13-15页 |
| 第二章 网页净化 | 第15-35页 |
| ·网页净化方法分析 | 第16-17页 |
| ·可视布局信息法 | 第17-18页 |
| ·利用 DOM TREE进行网页净化 | 第18-35页 |
| ·xml及其结构特征和模式 | 第19-22页 |
| ·DOM | 第22-25页 |
| ·XPATH介绍 | 第25-26页 |
| ·Jtidy介绍 | 第26-27页 |
| ·使用 Jtidy进行网页净化 | 第27-35页 |
| 第三章 网页相似性检测方法 | 第35-55页 |
| ·URL分析 | 第36页 |
| ·链接分析 | 第36-40页 |
| ·单个网页相似性分析 | 第36-37页 |
| ·网页集合相似度分析方法 | 第37-40页 |
| ·内容分析 | 第40-44页 |
| ·DSC和 DSC-SS方法 | 第41-42页 |
| ·I-Match方法 | 第42-43页 |
| ·基于关键词匹配的向量空间模型的检测方法 | 第43-44页 |
| ·三种相似性检测方法的分析与比较 | 第44页 |
| ·基于bloom filter的相似性检测方法 | 第44-55页 |
| ·网页特征项的粒度分析 | 第45-47页 |
| ·Rabin fingerprints介绍 | 第47-48页 |
| ·使用bloom filter查重 | 第48页 |
| ·基于内容的内容块 | 第48-49页 |
| ·Hash | 第49页 |
| ·Bloom filter | 第49-51页 |
| ·利用bloom filter测试相似性 | 第51-55页 |
| 第四章 网页查重的分析与实现 | 第55-63页 |
| ·分析 | 第55-56页 |
| ·网页查重的实现 | 第56-63页 |
| ·设备和对象 | 第58页 |
| ·bloom filter的确定 | 第58页 |
| ·相似度的影响 | 第58-59页 |
| ·查询词的影响 | 第59-61页 |
| ·响应时间 | 第61-63页 |
| 第五章 课题总结 | 第63-67页 |
| 参考文献 | 第67-71页 |
| 致谢 | 第71-73页 |
| 攻读硕士学位期间发表的论文 | 第73-74页 |
| 作者和导师简介 | 第74-75页 |
| 硕士研究生学位论文答辩委员会决议书 | 第75-76页 |