摘要 | 第5-6页 |
abstract | 第6-7页 |
第一章 绪论 | 第11-16页 |
1.1 研究背景与意义 | 第11-12页 |
1.2 国内外研究现状 | 第12-14页 |
1.3 主要研究内容 | 第14页 |
1.4 本论文的结构安排 | 第14-16页 |
第二章 相关技术介绍 | 第16-30页 |
2.1 网络爬虫技术 | 第16-21页 |
2.1.1 网络爬虫基本结构 | 第16-17页 |
2.1.2 网络爬虫分类 | 第17-18页 |
2.1.3 网络爬虫爬行策略 | 第18-20页 |
2.1.4 分布式网络爬虫结构 | 第20-21页 |
2.2 Storm流计算框架 | 第21-27页 |
2.2.1 实时流计算 | 第21-23页 |
2.2.2 Storm基本概念 | 第23-25页 |
2.2.3 Ack可靠传输机制 | 第25-27页 |
2.3 非关系型数据库 | 第27-29页 |
2.3.1 Redis数据库 | 第27-28页 |
2.3.2 MongoDB数据库 | 第28-29页 |
2.4 本章小结 | 第29-30页 |
第三章 分布式网络爬虫系统需求分析 | 第30-36页 |
3.1 系统概述 | 第30页 |
3.2 功能性需求 | 第30-34页 |
3.2.1 URL处理用例 | 第31-32页 |
3.2.2 网站URL处理用例 | 第32-33页 |
3.2.3 URL爬取用例 | 第33-34页 |
3.2.4 计划任务用例 | 第34页 |
3.3 非功能性需求 | 第34-35页 |
3.4 本章小结 | 第35-36页 |
第四章 分布式网络爬虫系统设计 | 第36-53页 |
4.1 系统总体设计 | 第36-38页 |
4.1.1 系统架构设计 | 第36-37页 |
4.1.2 系统功能结构设计 | 第37-38页 |
4.2 数据库设计 | 第38-43页 |
4.2.1 数据结构设计 | 第38-39页 |
4.2.2 MongoDB集群 | 第39-41页 |
4.2.3 Redis集群 | 第41-43页 |
4.3 Storm分布式平台设计 | 第43-48页 |
4.3.1 Storm数据流模型设计 | 第43-45页 |
4.3.2 基于多布隆过滤器的URL去重算法设计 | 第45-48页 |
4.4 Scrapy爬虫设计 | 第48-51页 |
4.4.1 Scrapy爬虫结构设计 | 第48-49页 |
4.4.2 基于优先级的广度优先爬行策略设计 | 第49-51页 |
4.5 系统功能模块设计 | 第51-52页 |
4.6 本章小结 | 第52-53页 |
第五章 分布式网络爬虫系统实现 | 第53-75页 |
5.1 URL处理Topology各功能模块实现 | 第53-60页 |
5.1.1 URL读取模块实现 | 第53-55页 |
5.1.2 URL去重模块实现 | 第55-57页 |
5.1.3 域名模块实现 | 第57页 |
5.1.4 URL存储模块实现 | 第57-60页 |
5.1.5 URL处理拓扑模块实现 | 第60页 |
5.2 网站URL处理Topology各功能模块实现 | 第60-64页 |
5.2.1 网站URL读取模块实现 | 第60-61页 |
5.2.2 URL聚集模块实现 | 第61-62页 |
5.2.3 URL爬取模块实现 | 第62-63页 |
5.2.4 网站URL处理拓扑模块实现 | 第63-64页 |
5.3 Scrapy爬虫各功能模块实现 | 第64-72页 |
5.3.1 爬虫模块实现 | 第64-69页 |
5.3.2 数据清洗模块实现 | 第69-70页 |
5.3.3 数据存储模块实现 | 第70-72页 |
5.4 种子URL模块实现 | 第72-73页 |
5.5 计划任务模块实现 | 第73-74页 |
5.6 本章小结 | 第74-75页 |
第六章 分布式网络爬虫系统测试 | 第75-89页 |
6.1 系统环境搭建 | 第75-81页 |
6.1.1 Storm集群搭建 | 第75-77页 |
6.1.2 MongoDB集群搭建 | 第77-79页 |
6.1.3 Redis集群搭建 | 第79-81页 |
6.2 系统功能测试 | 第81-86页 |
6.2.1 URL处理Topology测试 | 第81-82页 |
6.2.2 网站URL处理Topology测试 | 第82-83页 |
6.2.3 Scrapy爬虫测试 | 第83-84页 |
6.2.4 整体测试 | 第84-86页 |
6.3 系统性能测试 | 第86-88页 |
6.3.1 基于多布隆过滤器的URL去重算法误识别率测试 | 第86-87页 |
6.3.2 爬取速度测试 | 第87-88页 |
6.4 本章小结 | 第88-89页 |
第七章 全文总结与展望 | 第89-91页 |
7.1 全文总结 | 第89-90页 |
7.2 后续工作展望 | 第90-91页 |
致谢 | 第91-92页 |
参考文献 | 第92-95页 |
攻读硕士学位期间取得的成果 | 第95-96页 |