搜索引擎系统中网页消重的研究与实现
摘要 | 第1-6页 |
ABSTRACT | 第6-11页 |
1 绪论 | 第11-15页 |
·课题背景和研究意义 | 第11-12页 |
·国内外研究现状 | 第12-13页 |
·论文研究内容和论文组织结构 | 第13-15页 |
2 搜索引擎和网页主题内容提取 | 第15-31页 |
·搜索引擎及关键技术 | 第15-21页 |
·搜索引擎简介 | 第15-17页 |
·搜索引擎的关键技术 | 第17-19页 |
·提高搜索引擎效率的方法 | 第19-21页 |
·网页主题内容提取 | 第21-31页 |
·基于HTML 标签的最大正文块算法 | 第22页 |
·基于最大正文块的网页主题内容提取算法 | 第22-29页 |
·本章小节 | 第29-31页 |
3 网页消重起源与发展 | 第31-43页 |
·重复代码检测 | 第31-32页 |
·文本相似度 | 第32-33页 |
·SIF 算法 | 第32页 |
·SCAM 算法 | 第32页 |
·DSC 和DSC-SS 算法 | 第32-33页 |
·I-Match 算法 | 第33页 |
·重复网页特点与分类 | 第33-36页 |
·重复网页特点 | 第34-35页 |
·重复网页分类 | 第35-36页 |
·网页相似度 | 第36-42页 |
·基于特征码的算法 | 第36-37页 |
·基于特征句抽取的算法 | 第37-39页 |
·KCC 算法 | 第39-40页 |
·基于向量空间模型(VSM)的算法 | 第40-42页 |
·本章小结 | 第42-43页 |
4 基于关键词和特征码的页面去重算法 | 第43-51页 |
·基于关键词和特征码的页面去重算法步骤 | 第43-44页 |
·关键词提取 | 第44-46页 |
·特征串提取 | 第46页 |
·特征串相似度计算 | 第46-49页 |
·本章小节 | 第49-51页 |
5 搜索引擎系统设计与实现 | 第51-61页 |
·全文检索引擎lucene | 第51-54页 |
·全文检索系统与lucene 简介 | 第51-53页 |
·lucene 系统结构 | 第53页 |
·lucene 主要类与功能 | 第53-54页 |
·实验系统设计 | 第54-57页 |
·搜索引擎系统架构 | 第54页 |
·Heritrix 进行网页搜集 | 第54-56页 |
·页面去重模块 | 第56-57页 |
·Lucene 索引文件结构 | 第57页 |
·系统测试分析 | 第57-60页 |
·测试环境 | 第57-58页 |
·去重算法比较 | 第58-60页 |
·本章小节 | 第60-61页 |
6 总结与展望 | 第61-62页 |
·工作总结 | 第61页 |
·工作展望 | 第61-62页 |
参考文献 | 第62-65页 |
致谢 | 第65-66页 |
攻读学位期间发表的学术论文目录 | 第66-67页 |