首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

搜索引擎中网页查重方法的研究

摘要第1-5页
Abstract第5-11页
第一章 绪论第11-15页
   ·课题背景及意义第11-12页
   ·网页查重所面临的问题第12-13页
   ·本课题的任务第13-15页
第二章 网页净化第15-35页
   ·网页净化方法分析第16-17页
   ·可视布局信息法第17-18页
   ·利用 DOM TREE进行网页净化第18-35页
     ·xml及其结构特征和模式第19-22页
     ·DOM第22-25页
     ·XPATH介绍第25-26页
     ·Jtidy介绍第26-27页
     ·使用 Jtidy进行网页净化第27-35页
第三章 网页相似性检测方法第35-55页
   ·URL分析第36页
   ·链接分析第36-40页
     ·单个网页相似性分析第36-37页
     ·网页集合相似度分析方法第37-40页
   ·内容分析第40-44页
     ·DSC和 DSC-SS方法第41-42页
     ·I-Match方法第42-43页
     ·基于关键词匹配的向量空间模型的检测方法第43-44页
     ·三种相似性检测方法的分析与比较第44页
   ·基于bloom filter的相似性检测方法第44-55页
     ·网页特征项的粒度分析第45-47页
     ·Rabin fingerprints介绍第47-48页
     ·使用bloom filter查重第48页
     ·基于内容的内容块第48-49页
     ·Hash第49页
     ·Bloom filter第49-51页
     ·利用bloom filter测试相似性第51-55页
第四章 网页查重的分析与实现第55-63页
   ·分析第55-56页
   ·网页查重的实现第56-63页
     ·设备和对象第58页
     ·bloom filter的确定第58页
     ·相似度的影响第58-59页
     ·查询词的影响第59-61页
     ·响应时间第61-63页
第五章 课题总结第63-67页
参考文献第67-71页
致谢第71-73页
攻读硕士学位期间发表的论文第73-74页
作者和导师简介第74-75页
硕士研究生学位论文答辩委员会决议书第75-76页

论文共76页,点击 下载论文
上一篇:轿车白车身扭转刚度分析及结构优化设计
下一篇:枝角类浮游动物对水体富营养化和蓝藻水华影响的初步研究