首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于内容的搜索引擎网页去重研究

摘要第1-5页
ABSTRACT第5-9页
第一章 绪论第9-24页
   ·研究背景第9-12页
   ·网页去重基础理论第12-18页
     ·网页重复概述第12-13页
     ·网页重复原因第13-14页
     ·网页重复的模式第14-15页
     ·网页重复特点第15-16页
     ·网页重复的问题第16-18页
   ·搜索引擎第18-22页
     ·搜索引擎分类第18-19页
     ·搜索引擎系统架构第19-20页
     ·搜索引擎的缺陷第20-22页
   ·本文任务第22页
   ·文章结构第22-24页
第二章 网页正文内容提取第24-36页
   ·概述第24-25页
   ·正文提取方法分析第25-26页
   ·基于标记窗的网页正文提取算法第26-34页
     ·算法基础第26-30页
     ·DOM、Nekohtml介绍第30-32页
       ·DOM第30-31页
       ·nekoHTML第31-32页
     ·基于标记窗正文提取算法实现第32-34页
   ·正文提取算法效果分析第34-35页
   ·本章小结第35-36页
第三章 网页去重算法概述第36-48页
   ·概述第36-37页
   ·国外常用网页去重算法介绍第37-41页
     ·DSC和DSC-SS第37-39页
     ·I-Match算法第39-40页
     ·simHash算法第40-41页
     ·全文分段签名第41页
   ·国内常用的去重算法介绍第41-45页
     ·北大天网查重算法第41-42页
     ·基于特征码的网页查重算法第42-44页
     ·基于LCS网页去重算法第44-45页
   ·网页去重算法分析第45-47页
   ·本章小结第47-48页
第四章 基于大段落和BloomFilter的网页去重算法第48-55页
   ·重复网页定义第48页
   ·算法第48-50页
   ·改进的特征码提取算法第50-53页
   ·本章小结第53-55页
第五章 网页相似度计算第55-69页
   ·概述第55-56页
   ·BloomFilter第56-61页
     ·原理第56-58页
     ·应用于网页相似性检测第58-59页
     ·相似度计算第59-61页
   ·网页去重实现第61-64页
     ·BloomFilter确定第61-62页
     ·算法实现第62-64页
   ·实验结果第64-68页
     ·测试标准第64页
     ·实验结果第64-66页
     ·响应时间第66-68页
   ·本章小结第68-69页
第六章 总结与展望第69-72页
   ·本文工作总结第69-70页
   ·下一步研究第70-72页
参考文献第72-76页
致谢第76-77页
攻读学位期间发表的学术论文第77页

论文共77页,点击 下载论文
上一篇:中心体喷嘴射流特性的实验研究与数值计算
下一篇:基于高光谱图像的黄瓜叶片叶绿素含量及其分布预测研究