互联网数据增量采集系统的设计与实现

摘要	第4-5页
ABSTRACT	第5-6页
目录	第7-9页
第一章绪论	第9-13页
1.1. 研究背景与意义	第9页
1.2. 国内外研究现状	第9-10页
1.3. 研究内容与本文工作	第10-12页
1.4. 论文内容与结构	第12-13页
第二章技术介绍与需求分析	第13-21页
2.1. 技术介绍	第13-18页
2.1.1. Heritrix	第13-17页
2.1.2. Spring	第17-18页
2.2. 需求分析	第18-21页
2.2.1. 增量采集功能	第18页
2.2.2. 多任务机制	第18-19页
2.2.3. 快速开发接口	第19页
2.2.4. 爬虫工具包	第19-20页
2.2.5. 数据存储	第20-21页
第三章增量采集系统的设计	第21-40页
3.1. 系统设计目标	第21页
3.2. 系统总体框架	第21-22页
3.3. 系统功能设计	第22-40页
3.3.1. 增量控制	第23-26页
3.3.2. 爬虫任务管理	第26-28页
3.3.3. 快速开发接口	第28-32页
3.3.4. 爬虫工具类	第32-36页
3.3.5. 增量策略	第36-37页
3.3.6. 数据存储	第37-38页
3.3.7. 增量统计	第38-40页
第四章增量采集系统的实现	第40-58页
4.1. 系统核心功能	第40-50页
4.1.1. 爬虫任务管理	第41-43页
4.1.2. 任务配置	第43页
4.1.3. 增量控制	第43-45页
4.1.4. 任务开发接口	第45-46页
4.1.5. 爬虫代理	第46-47页
4.1.6. 链接队列	第47-48页
4.1.7. js动态解析	第48页
4.1.8. 增量统计	第48-49页
4.1.9. 数据存储	第49-50页
4.2. 爬虫任务开发	第50-58页
4.2.1. 确定数据源	第51页
4.2.2. 接口实现	第51-53页
4.2.3. 任务开发过程	第53-58页
第五章系统应用与测试	第58-66页
5.1. 系统部署	第58-59页
5.1.1. 部署环境	第58页
5.1.2. 部署步骤	第58-59页
5.2. 系统测试	第59-64页
5.2.1. 功能测试	第59-62页
5.2.2. 性能测试	第62-64页
5.3. 测试总结	第64-66页
第六章总结与展望	第66-68页
6.1. 总结	第66页
6.2. 展望	第66-68页
参考文献	第68-70页
致谢	第70-71页
攻读学位期间发表的学术论文目录	第71页