首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

搜索引擎中重复网页检测算法研究

摘要第1-6页
Abstract第6-10页
第一章 绪论第10-14页
   ·课题研究背景第10-11页
   ·重复网页检测国内外研究现状第11-12页
   ·论文的主要工作第12-13页
   ·本文的组织结构第13-14页
第二章 中文搜索引擎及相关技术介绍第14-25页
   ·搜索引擎简介第14-19页
     ·搜索引擎简介第14页
     ·搜索引擎的分类第14-15页
     ·全文搜索引擎的体系架构第15-18页
     ·搜索引擎存在的问题第18-19页
   ·网页文本信息抽取介绍第19-23页
     ·网页分类第19-21页
     ·网页文本内容抽取第21-23页
   ·中文分词技术第23-24页
   ·本章小结第24-25页
第三章 重复网页检测算法分析和介绍第25-32页
   ·重复网页的特征第25-26页
   ·重复网页的分类第26页
   ·现有重复网页检测算法介绍第26-31页
     ·SCAM 算法第26-27页
     ·基于特征码的重复网页检测算法第27-29页
     ·simhash 算法第29-30页
     ·I-Match 算法第30-31页
   ·本章小结第31-32页
第四章 重复网页检测改进算法第32-44页
   ·基于 DSC 算法的改进第32-38页
     ·DSC 算法介绍第32-35页
     ·基于 DSC 的改进算法第35-38页
   ·基于特征项的重复网页检测的改进算法第38-43页
     ·基于特征项的重复网页检测算法第38-39页
     ·特征项权重的计算第39-40页
     ·文本的向量空间模型表示第40-42页
     ·基于特征项的重复网页检测改进算法具体描述第42-43页
   ·本章小结第43-44页
第五章 基于 Lucene 的搜索引擎系统实现和实验结果分析第44-59页
   ·系统总体架构第44-53页
     ·Heritrix 抓取网页第45-47页
     ·HTMLParser 解析网页第47-49页
     ·重复网页处理第49页
     ·Lucene 索引文本文件第49-53页
   ·实验测试与分析第53-58页
     ·实验环境第53页
     ·实验结果分析第53-58页
   ·本章小结第58-59页
第六章 总结与展望第59-61页
   ·论文总结第59页
   ·未来工作展望第59-61页
参考文献第61-64页
致谢第64-65页
个人简历第65页

论文共65页,点击 下载论文
上一篇:粮食害虫智能检测及分类方法研究
下一篇:基于Web的粮食舆情分析关键技术研究