基于Scrapy的分布式网络爬虫系统设计与实现

摘要	第5-6页
abstract	第6-7页
第一章绪论	第10-14页
1.1 研究背景及意义	第10页
1.2 国内外研究现状	第10-12页
1.3 主要研究工作	第12-13页
1.4 论文组织结构	第13-14页
第二章相关理论与技术基础	第14-28页
2.1 网络爬虫	第14-17页
2.1.1 网络爬虫的分类	第14-15页
2.1.2 网络爬虫的爬行策略	第15-17页
2.2 分布式网络爬虫	第17-20页
2.2.1 分布式爬虫系统架构	第17-19页
2.2.2 任务调度策略	第19-20页
2.3 SCRAPY框架研究	第20-22页
2.3.1 Scrapy框架结构	第21-22页
2.3.2 Scrapy框架的不足	第22页
2.4 相关技术	第22-27页
2.4.1 Redis数据库	第22-24页
2.4.2 Kafka消息系统	第24-26页
2.4.3 ZooKeeper	第26-27页
2.5 本章小结	第27-28页
第三章分布式网络爬虫系统设计	第28-37页
3.1 系统设计目标	第28页
3.2 系统总体设计	第28-34页
3.2.1 系统总体结构	第28-32页
3.2.2 系统运行机制	第32-34页
3.3 数据库设计	第34-36页
3.3.1 Redis集群	第34-35页
3.3.2 MongoDB集群	第35-36页
3.4 本章小结	第36-37页
第四章系统详细设计与实现	第37-79页
4.1 消息处理	第37-46页
4.1.1 状态计数器	第37-39页
4.1.2 消息预处理模块	第39-42页
4.1.3 Redis监控模块	第42-46页
4.2 主节点设计实现	第46-56页
4.2.1 任务调度器	第46-49页
4.2.2 限速器	第49-53页
4.2.3 过滤器	第53-56页
4.3 从节点群设计实现	第56-78页
4.3.1 Scrapy爬虫	第56-73页
4.3.2 爬虫管理	第73-78页
4.4 本章小结	第78-79页
第五章系统测试与展示	第79-88页
5.1 系统运行环境	第79-80页
5.2 模块性能测试	第80-84页
5.2.1 任务调度器模块测试	第80-81页
5.2.2 过滤器模块测试	第81-83页
5.2.3 爬虫采集速度测试	第83-84页
5.3 系统展示	第84-87页
5.4 本章小结	第87-88页
第六章总结与展望	第88-90页
6.1 总结	第88页
6.2 后续工作展望	第88-90页
致谢	第90-91页
参考文献	第91-94页
攻读硕士学位期间取得的成果	第94页