垂直搜索引擎中数据获取技术的研究与实现

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-12页
1.1 研究背景与意义	第9-10页
1.2 研究内容与目标	第10-11页
1.3 论文结构	第11-12页
第二章相关技术研究	第12-24页
2.1 垂直搜索引擎概述	第12-13页
2.1.1 原理和架构	第12-13页
2.1.2 垂直搜索引擎评价指标	第13页
2.2 数据获取	第13-16页
2.2.1 被动数据获取	第14-15页
2.2.2 主动数据获取	第15-16页
2.3 信息提取	第16-17页
2.4 本文用到的开源软件和相关技术	第17-24页
2.4.1 Heritrix	第17-19页
2.4.2 Scrapy	第19-20页
2.4.3 JavaScript	第20-21页
2.4.4 Sitemap	第21-22页
2.4.5 Jsoup	第22-24页
第三章主题爬虫的研究与实现	第24-44页
3.1 主题爬虫的需求分析	第24-26页
3.1.1 整体系统需求分析和爬虫需求分析	第24页
3.1.2 整体架构设计和爬虫资源分配	第24-26页
3.1.3 开发环境介绍	第26页
3.2 主题爬虫的设计	第26-32页
3.2.1 主题爬虫的需求分析	第27页
3.2.2 主题爬虫的总体设计	第27-32页
3.3 主题爬虫的实现	第32-41页
3.3.1 视频主题爬虫定制和启动	第33-40页
3.3.2 视频爬虫增量更新	第40-41页
3.4 主题爬虫的评价指标和测试	第41-44页
3.4.1 主题爬虫的覆盖率	第41-42页
3.4.2 主题爬虫的及时性	第42-44页
第四章动态数据采集技术	第44-51页
4.1 动态数据环境概述	第44页
4.2 动态数据的采集	第44-47页
4.2.1 基于JavaScript源码分析的方案	第45-46页
4.2.2 基于浏览器内核的方案	第46-47页
4.3 增强主题爬虫的灵活性	第47-51页
4.3.1 robots协议	第47-49页
4.3.2 控制访问频率	第49-51页
第五章结构化信息提取技术	第51-60页
5.1 基于xpath的信息提取	第51-56页
5.1.1 工具箱模块	第52-55页
5.1.2 信息提取模块	第55-56页
5.2 自动化信息提取	第56-58页
5.3 数据验证与测试	第58-60页
5.3.1 提取性能测试	第58页
5.3.2 自动化测试	第58-60页
第六章总结与展望	第60-62页
6.1 工作总结	第60-61页
6.2 未来展望	第61-62页
参考文献	第62-64页
致谢	第64-65页
攻读学位期间发表的学术论文和科研情况	第65页