基于Storm云平台的分布式网络爬虫技术研究与实现
摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第10-15页 |
1.1 研究工作的背景与意义 | 第10-11页 |
1.2 国内外研究现状 | 第11-13页 |
1.3 研究内容 | 第13页 |
1.4 本论文的结构安排 | 第13-15页 |
第二章 相关技术介绍 | 第15-30页 |
2.1 网络爬虫技术原理 | 第15-20页 |
2.1.1 网络爬虫的基本结构及工作流程 | 第15-17页 |
2.1.2 抓取策略 | 第17-20页 |
2.2 Storm云平台 | 第20-23页 |
2.2.1 Storm的基本概念 | 第21-22页 |
2.2.2 Storm的运用场景 | 第22-23页 |
2.3 非关系型数据库 | 第23-25页 |
2.3.1 非关系型数据库介绍 | 第23页 |
2.3.2 MongoDB | 第23-25页 |
2.4 微博数据获取技术 | 第25-29页 |
2.4.1 基于Open API的数据获取技术 | 第25-26页 |
2.4.2 基于模拟登录的数据获取技术 | 第26-29页 |
2.4.3 代理获取数据和定时获取数据技术 | 第29页 |
2.5 本章小结 | 第29-30页 |
第三章 分布式网络爬虫系统需求 | 第30-40页 |
3.1 系统实现目标 | 第30-31页 |
3.2 可行性分析 | 第31-32页 |
3.3 功能需求分析 | 第32-38页 |
3.3.1 模拟登录功能分析 | 第33页 |
3.3.2 URL队列库功能分析 | 第33-34页 |
3.3.3 URL优化链接功能分析 | 第34页 |
3.3.4 网页下载功能分析 | 第34-35页 |
3.3.5 网页解析功能分析 | 第35-38页 |
3.3.6 数据存储功能分析 | 第38页 |
3.4 性能需求分析 | 第38-39页 |
3.5 本章小结 | 第39-40页 |
第四章 分布式网络爬虫系统设计 | 第40-68页 |
4.1 数据库设计 | 第40-43页 |
4.1.1 MongoDB集群 | 第40页 |
4.1.2 数据库设计 | 第40-43页 |
4.2 分布式网络爬虫系统的总体架构设计 | 第43-67页 |
4.2.1 Storm集群 | 第43-49页 |
4.2.2 分布式网络爬虫结构设计 | 第49-67页 |
4.2.2.1 初始化种子URL文档模块 | 第49-50页 |
4.2.2.2 模拟登录模块 | 第50-52页 |
4.2.2.3 待抓取URL队列库模块 | 第52-53页 |
4.2.2.4 URL优化链接模块 | 第53-55页 |
4.2.2.5 网页下载模块 | 第55页 |
4.2.2.6 网页解析模块 | 第55-67页 |
4.2.2.7 数据持久化到数据库模块 | 第67页 |
4.3 本章小结 | 第67-68页 |
第五章 系统测试 | 第68-77页 |
5.1 系统环境搭建 | 第68-72页 |
5.1.1 Storm集群环境搭建 | 第68-70页 |
5.1.2 MongoDB集群环境搭建 | 第70-72页 |
5.2 系统测试 | 第72-76页 |
5.2.1 系统功能测试 | 第72-73页 |
5.2.2 系统性能测试 | 第73-76页 |
5.3 本章小结 | 第76-77页 |
第六章 全文总结与展望 | 第77-80页 |
6.1 全文总结 | 第77-78页 |
6.2 存在的问题与不足 | 第78页 |
6.3 后续工作展望 | 第78-80页 |
致谢 | 第80-81页 |
参考文献 | 第81-83页 |