首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

搜索引擎系统中网页消重的研究与实现

摘要第1-6页
ABSTRACT第6-11页
1 绪论第11-15页
   ·课题背景和研究意义第11-12页
   ·国内外研究现状第12-13页
   ·论文研究内容和论文组织结构第13-15页
2 搜索引擎和网页主题内容提取第15-31页
   ·搜索引擎及关键技术第15-21页
     ·搜索引擎简介第15-17页
     ·搜索引擎的关键技术第17-19页
     ·提高搜索引擎效率的方法第19-21页
   ·网页主题内容提取第21-31页
     ·基于HTML 标签的最大正文块算法第22页
     ·基于最大正文块的网页主题内容提取算法第22-29页
     ·本章小节第29-31页
3 网页消重起源与发展第31-43页
   ·重复代码检测第31-32页
   ·文本相似度第32-33页
     ·SIF 算法第32页
     ·SCAM 算法第32页
     ·DSC 和DSC-SS 算法第32-33页
     ·I-Match 算法第33页
   ·重复网页特点与分类第33-36页
     ·重复网页特点第34-35页
     ·重复网页分类第35-36页
   ·网页相似度第36-42页
     ·基于特征码的算法第36-37页
     ·基于特征句抽取的算法第37-39页
     ·KCC 算法第39-40页
     ·基于向量空间模型(VSM)的算法第40-42页
   ·本章小结第42-43页
4 基于关键词和特征码的页面去重算法第43-51页
   ·基于关键词和特征码的页面去重算法步骤第43-44页
   ·关键词提取第44-46页
   ·特征串提取第46页
   ·特征串相似度计算第46-49页
   ·本章小节第49-51页
5 搜索引擎系统设计与实现第51-61页
   ·全文检索引擎lucene第51-54页
     ·全文检索系统与lucene 简介第51-53页
     ·lucene 系统结构第53页
     ·lucene 主要类与功能第53-54页
   ·实验系统设计第54-57页
     ·搜索引擎系统架构第54页
     ·Heritrix 进行网页搜集第54-56页
     ·页面去重模块第56-57页
     ·Lucene 索引文件结构第57页
   ·系统测试分析第57-60页
     ·测试环境第57-58页
     ·去重算法比较第58-60页
   ·本章小节第60-61页
6 总结与展望第61-62页
   ·工作总结第61页
   ·工作展望第61-62页
参考文献第62-65页
致谢第65-66页
攻读学位期间发表的学术论文目录第66-67页

论文共67页,点击 下载论文
上一篇:基于拓扑匹配的Chord协议的研究与设计
下一篇:C-均值聚类算法的改进研究