搜索引擎中重复网页检测算法研究

摘要	第1-6页
Abstract	第6-10页
第一章绪论	第10-14页
·课题研究背景	第10-11页
·重复网页检测国内外研究现状	第11-12页
·论文的主要工作	第12-13页
·本文的组织结构	第13-14页
第二章中文搜索引擎及相关技术介绍	第14-25页
·搜索引擎简介	第14-19页
·搜索引擎简介	第14页
·搜索引擎的分类	第14-15页
·全文搜索引擎的体系架构	第15-18页
·搜索引擎存在的问题	第18-19页
·网页文本信息抽取介绍	第19-23页
·网页分类	第19-21页
·网页文本内容抽取	第21-23页
·中文分词技术	第23-24页
·本章小结	第24-25页
第三章重复网页检测算法分析和介绍	第25-32页
·重复网页的特征	第25-26页
·重复网页的分类	第26页
·现有重复网页检测算法介绍	第26-31页
·SCAM 算法	第26-27页
·基于特征码的重复网页检测算法	第27-29页
·simhash 算法	第29-30页
·I-Match 算法	第30-31页
·本章小结	第31-32页
第四章重复网页检测改进算法	第32-44页
·基于 DSC 算法的改进	第32-38页
·DSC 算法介绍	第32-35页
·基于 DSC 的改进算法	第35-38页
·基于特征项的重复网页检测的改进算法	第38-43页
·基于特征项的重复网页检测算法	第38-39页
·特征项权重的计算	第39-40页
·文本的向量空间模型表示	第40-42页
·基于特征项的重复网页检测改进算法具体描述	第42-43页
·本章小结	第43-44页
第五章基于 Lucene 的搜索引擎系统实现和实验结果分析	第44-59页
·系统总体架构	第44-53页
·Heritrix 抓取网页	第45-47页
·HTMLParser 解析网页	第47-49页
·重复网页处理	第49页
·Lucene 索引文本文件	第49-53页
·实验测试与分析	第53-58页
·实验环境	第53页
·实验结果分析	第53-58页
·本章小结	第58-59页
第六章总结与展望	第59-61页
·论文总结	第59页
·未来工作展望	第59-61页
参考文献	第61-64页
致谢	第64-65页
个人简历	第65页