基于内容的搜索引擎网页去重研究

摘要	第1-5页
ABSTRACT	第5-9页
第一章绪论	第9-24页
·研究背景	第9-12页
·网页去重基础理论	第12-18页
·网页重复概述	第12-13页
·网页重复原因	第13-14页
·网页重复的模式	第14-15页
·网页重复特点	第15-16页
·网页重复的问题	第16-18页
·搜索引擎	第18-22页
·搜索引擎分类	第18-19页
·搜索引擎系统架构	第19-20页
·搜索引擎的缺陷	第20-22页
·本文任务	第22页
·文章结构	第22-24页
第二章网页正文内容提取	第24-36页
·概述	第24-25页
·正文提取方法分析	第25-26页
·基于标记窗的网页正文提取算法	第26-34页
·算法基础	第26-30页
·DOM、Nekohtml介绍	第30-32页
·DOM	第30-31页
·nekoHTML	第31-32页
·基于标记窗正文提取算法实现	第32-34页
·正文提取算法效果分析	第34-35页
·本章小结	第35-36页
第三章网页去重算法概述	第36-48页
·概述	第36-37页
·国外常用网页去重算法介绍	第37-41页
·DSC和DSC-SS	第37-39页
·I-Match算法	第39-40页
·simHash算法	第40-41页
·全文分段签名	第41页
·国内常用的去重算法介绍	第41-45页
·北大天网查重算法	第41-42页
·基于特征码的网页查重算法	第42-44页
·基于LCS网页去重算法	第44-45页
·网页去重算法分析	第45-47页
·本章小结	第47-48页
第四章基于大段落和BloomFilter的网页去重算法	第48-55页
·重复网页定义	第48页
·算法	第48-50页
·改进的特征码提取算法	第50-53页
·本章小结	第53-55页
第五章网页相似度计算	第55-69页
·概述	第55-56页
·BloomFilter	第56-61页
·原理	第56-58页
·应用于网页相似性检测	第58-59页
·相似度计算	第59-61页
·网页去重实现	第61-64页
·BloomFilter确定	第61-62页
·算法实现	第62-64页
·实验结果	第64-68页
·测试标准	第64页
·实验结果	第64-66页
·响应时间	第66-68页
·本章小结	第68-69页
第六章总结与展望	第69-72页
·本文工作总结	第69-70页
·下一步研究	第70-72页
参考文献	第72-76页
致谢	第76-77页
攻读学位期间发表的学术论文	第77页