基于网络爬虫的数据采集系统设计与实现

摘要	第5-6页
Abstract	第6页
第1章绪论	第9-13页
1.1 研究背景与意义	第9-10页
1.2 国内外研究现状	第10-12页
1.2.1 Web信息采集研究现状	第10页
1.2.2 主题爬虫研究进展	第10-11页
1.2.3 主题爬虫研究趋势	第11-12页
1.3 主要工作	第12页
1.4 论文组织结构	第12-13页
第2章相关技术	第13-27页
2.1 Web信息采集技术	第13-14页
2.2 页面分析技术	第14-16页
2.2.1 DOM	第14-15页
2.2.2 jQuery框架	第15页
2.2.3 Jsoup解析器	第15-16页
2.3 网络爬虫	第16-17页
2.3.1 通用爬虫	第16页
2.3.2 链接去重	第16-17页
2.4 主题爬虫	第17-20页
2.4.1 主题页面分布特性	第18页
2.4.2 主题爬行策略	第18-20页
2.4.3 主题相关性判定算法	第20页
2.5 WebCollector	第20-21页
2.6 J2EE框架	第21-26页
2.6.1 Servlet技术	第22-23页
2.6.2 MVC模式概述	第23-24页
2.6.3 Structs2框架	第24-26页
2.7 本章小结	第26-27页
第3章需求分析	第27-33页
3.1 需求背景	第27页
3.2 数据来源分析	第27-28页
3.3 数据特征分析	第28-29页
3.4 功能需求分析	第29-31页
3.5 本章小结	第31-33页
第4章系统总体设计	第33-41页
4.1 系统结构	第33-34页
4.2 初始化模块	第34-35页
4.3 主题爬取模块	第35-36页
4.4 通用爬取模块	第36-37页
4.5 增量触发模块	第37-38页
4.6 页面解析模块	第38页
4.7 数据存储	第38-40页
4.8 本章小结	第40-41页
第5章系统实现	第41-57页
5.1 系统开发环境	第41页
5.2 系统类结构	第41-43页
5.3 关键算法设计与实现	第43-46页
5.3.1 权威站点队列和关键词生成算法	第43-45页
5.3.2 基于VSM算法的主题相关性判定算法	第45-46页
5.4 系统功能实现	第46-56页
5.4.1 全局配置	第46-48页
5.4.2 主题爬取	第48-52页
5.4.3 动态信息爬取	第52-55页
5.4.4 增量信息爬取	第55-56页
5.5 本章小结	第56-57页
第6章系统测试及实验分析	第57-61页
6.1 系统测试	第57页
6.2 算法测试	第57-60页
6.2.1 权威站点和关键词	第57-58页
6.2.2 准确率测试	第58-60页
6.2.3 系统性能测试	第60页
6.4 本章小结	第60-61页
结论	第61-63页
参考文献	第63-67页
致谢	第67页