基于增量式爬虫的搜索引擎系统的设计与实现
摘要 | 第5-6页 |
Abstract | 第6-7页 |
第1章 绪论 | 第10-16页 |
1.1 课题研究的背景 | 第10页 |
1.2 课题研究的目的及意义 | 第10-11页 |
1.3 国内外研究现状 | 第11-13页 |
1.4 主要研究内容 | 第13-14页 |
1.5 文章结构安排 | 第14-16页 |
第2章 搜索引擎及相关技术 | 第16-30页 |
2.1 网络爬虫技术 | 第16-22页 |
2.1.1 网络爬虫分类 | 第16-17页 |
2.1.2 应用领域 | 第17-18页 |
2.1.3 网络爬虫工作原理 | 第18-22页 |
2.2 搜索引擎技术 | 第22-29页 |
2.2.1 搜索引擎工作原理 | 第24-28页 |
2.2.2 索引结构 | 第28-29页 |
2.3 本章小结 | 第29-30页 |
第3章 不同爬取机制下的数据获取情况分析 | 第30-36页 |
3.1 数据配置 | 第30-31页 |
3.1.1 属性配置 | 第30-31页 |
3.1.2 路径配置 | 第31页 |
3.2 数据获取实验及结果分析 | 第31-33页 |
3.3 本章小结 | 第33-36页 |
第4章 基于增量式爬虫的搜索引擎系统的分析与设计 | 第36-46页 |
4.1 系统需求分析 | 第36-39页 |
4.1.1 系统用例分析 | 第36-38页 |
4.1.2 系统场景分析 | 第38-39页 |
4.2 系统设计 | 第39-44页 |
4.2.1 概要设计 | 第39-43页 |
4.2.2 详细设计 | 第43-44页 |
4.3 本章小结 | 第44-46页 |
第5章 基于增量式爬虫的搜索引擎系统实现 | 第46-62页 |
5.1 所用到的控件 | 第46-51页 |
5.1.1 Jakarta POI组件 | 第46页 |
5.1.2 PDFBox组件 | 第46-47页 |
5.1.3 JE分词组件 | 第47-48页 |
5.1.4 Carrot2系统组件 | 第48页 |
5.1.5 Luke工具 | 第48-51页 |
5.2 系统功能实现 | 第51-59页 |
5.2.1 搜索功能实现 | 第51-52页 |
5.2.2 附件文件解析功能实现 | 第52-54页 |
5.2.3 高亮显示功能实现 | 第54-55页 |
5.2.4 摘要内容显示功能实现 | 第55页 |
5.2.5 分页显示功能实现 | 第55-56页 |
5.2.6 网页快照功能实现 | 第56-58页 |
5.2.7 限定域搜索功能实现 | 第58页 |
5.2.8 自动补全功能设计 | 第58-59页 |
5.3 系统前台实现 | 第59-60页 |
5.3.1 Tomcat的配置 | 第59-60页 |
5.3.2 其他属性的配置 | 第60页 |
5.4 本章小结 | 第60-62页 |
第6章 基于增量式爬虫的搜索引擎系统测试 | 第62-72页 |
6.1 系统测试 | 第62-70页 |
6.2 系统分析 | 第70-71页 |
6.3 本章小结 | 第71-72页 |
第7章 结论与展望 | 第72-74页 |
参考文献 | 第74-78页 |
致谢 | 第78页 |