分布式书籍网络爬虫系统的设计与实现

摘要	第6-7页
Abstract	第7页
第1章绪论	第10-15页
1.1 研究背景与意义	第10-11页
1.2 国内外研究现状	第11-14页
1.3 本论文研究内容	第14页
1.4 论文章节安排	第14-15页
第2章相关技术基础	第15-23页
2.1 网络爬虫概述	第15-22页
2.1.1 网络爬虫的概念与原理	第15-17页
2.1.2 网络爬虫分类	第17页
2.1.3 各种开源网络爬虫框架	第17-22页
2.2 数据存储NoSQL	第22页
2.3 本章小结	第22-23页
第3章分布式网络爬虫研究与设计	第23-43页
3.1 设计目标	第23页
3.2 Scrapy框架研究	第23-27页
3.2.1 Scrapy的组成	第24-26页
3.2.2 Scrapy框架的不足	第26页
3.2.3 Scrapy框架的扩展	第26-27页
3.3 DScrapy系统的架构	第27-30页
3.3.1 分布式网络爬虫基本架构	第27-29页
3.3.2 DScrapy系统架构	第29-30页
3.4 调度器的设计	第30-33页
3.4.1 Redis数据库	第30-33页
3.4.2 调度器类图结构	第33页
3.5 图片存储流水线设计	第33-34页
3.5.1 流水线工作原理	第33-34页
3.5.2 图片流水线类图结构	第34页
3.6 书籍文件存储设计	第34-42页
3.6.1 MongoDB简介	第35-40页
3.6.2 文档结构设计	第40-41页
3.6.3 文件存储类图结构	第41-42页
3.7 本章小结	第42-43页
第4章 DScrapy系统的实现	第43-54页
4.1 开发平台与工具	第43页
4.2 调度器的实现	第43-45页
4.3 单个爬虫节点的实现	第45-49页
4.3.1 网络爬虫爬取页面分析	第45-46页
4.3.2 网络爬虫实现	第46-49页
4.4 图片存储实现	第49-50页
4.5 文件存储的实现	第50-53页
4.5.1 书籍详细信息存储的实现	第50-51页
4.5.2 书籍文件存储的实现	第51-53页
4.6 本章小结	第53-54页
第5章系统评测与结果分析	第54-57页
5.1 数据库存储结果	第54-55页
5.2 爬虫的状态及结果分析	第55-57页
总结与工作展望	第57-58页
总结	第57页
工作展望	第57-58页
致谢	第58-59页
参考文献	第59-63页
攻读硕士学位期间发表的论文及科研成果	第63页