摘要 | 第1-6页 |
Abstract | 第6-10页 |
第一章 绪论 | 第10-14页 |
·课题研究背景 | 第10-11页 |
·重复网页检测国内外研究现状 | 第11-12页 |
·论文的主要工作 | 第12-13页 |
·本文的组织结构 | 第13-14页 |
第二章 中文搜索引擎及相关技术介绍 | 第14-25页 |
·搜索引擎简介 | 第14-19页 |
·搜索引擎简介 | 第14页 |
·搜索引擎的分类 | 第14-15页 |
·全文搜索引擎的体系架构 | 第15-18页 |
·搜索引擎存在的问题 | 第18-19页 |
·网页文本信息抽取介绍 | 第19-23页 |
·网页分类 | 第19-21页 |
·网页文本内容抽取 | 第21-23页 |
·中文分词技术 | 第23-24页 |
·本章小结 | 第24-25页 |
第三章 重复网页检测算法分析和介绍 | 第25-32页 |
·重复网页的特征 | 第25-26页 |
·重复网页的分类 | 第26页 |
·现有重复网页检测算法介绍 | 第26-31页 |
·SCAM 算法 | 第26-27页 |
·基于特征码的重复网页检测算法 | 第27-29页 |
·simhash 算法 | 第29-30页 |
·I-Match 算法 | 第30-31页 |
·本章小结 | 第31-32页 |
第四章 重复网页检测改进算法 | 第32-44页 |
·基于 DSC 算法的改进 | 第32-38页 |
·DSC 算法介绍 | 第32-35页 |
·基于 DSC 的改进算法 | 第35-38页 |
·基于特征项的重复网页检测的改进算法 | 第38-43页 |
·基于特征项的重复网页检测算法 | 第38-39页 |
·特征项权重的计算 | 第39-40页 |
·文本的向量空间模型表示 | 第40-42页 |
·基于特征项的重复网页检测改进算法具体描述 | 第42-43页 |
·本章小结 | 第43-44页 |
第五章 基于 Lucene 的搜索引擎系统实现和实验结果分析 | 第44-59页 |
·系统总体架构 | 第44-53页 |
·Heritrix 抓取网页 | 第45-47页 |
·HTMLParser 解析网页 | 第47-49页 |
·重复网页处理 | 第49页 |
·Lucene 索引文本文件 | 第49-53页 |
·实验测试与分析 | 第53-58页 |
·实验环境 | 第53页 |
·实验结果分析 | 第53-58页 |
·本章小结 | 第58-59页 |
第六章 总结与展望 | 第59-61页 |
·论文总结 | 第59页 |
·未来工作展望 | 第59-61页 |
参考文献 | 第61-64页 |
致谢 | 第64-65页 |
个人简历 | 第65页 |