基于Storm云平台的分布式网络爬虫技术研究与实现

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第10-15页
1.1 研究工作的背景与意义	第10-11页
1.2 国内外研究现状	第11-13页
1.3 研究内容	第13页
1.4 本论文的结构安排	第13-15页
第二章相关技术介绍	第15-30页
2.1 网络爬虫技术原理	第15-20页
2.1.1 网络爬虫的基本结构及工作流程	第15-17页
2.1.2 抓取策略	第17-20页
2.2 Storm云平台	第20-23页
2.2.1 Storm的基本概念	第21-22页
2.2.2 Storm的运用场景	第22-23页
2.3 非关系型数据库	第23-25页
2.3.1 非关系型数据库介绍	第23页
2.3.2 MongoDB	第23-25页
2.4 微博数据获取技术	第25-29页
2.4.1 基于Open API的数据获取技术	第25-26页
2.4.2 基于模拟登录的数据获取技术	第26-29页
2.4.3 代理获取数据和定时获取数据技术	第29页
2.5 本章小结	第29-30页
第三章分布式网络爬虫系统需求	第30-40页
3.1 系统实现目标	第30-31页
3.2 可行性分析	第31-32页
3.3 功能需求分析	第32-38页
3.3.1 模拟登录功能分析	第33页
3.3.2 URL队列库功能分析	第33-34页
3.3.3 URL优化链接功能分析	第34页
3.3.4 网页下载功能分析	第34-35页
3.3.5 网页解析功能分析	第35-38页
3.3.6 数据存储功能分析	第38页
3.4 性能需求分析	第38-39页
3.5 本章小结	第39-40页
第四章分布式网络爬虫系统设计	第40-68页
4.1 数据库设计	第40-43页
4.1.1 MongoDB集群	第40页
4.1.2 数据库设计	第40-43页
4.2 分布式网络爬虫系统的总体架构设计	第43-67页
4.2.1 Storm集群	第43-49页
4.2.2 分布式网络爬虫结构设计	第49-67页
4.2.2.1 初始化种子URL文档模块	第49-50页
4.2.2.2 模拟登录模块	第50-52页
4.2.2.3 待抓取URL队列库模块	第52-53页
4.2.2.4 URL优化链接模块	第53-55页
4.2.2.5 网页下载模块	第55页
4.2.2.6 网页解析模块	第55-67页
4.2.2.7 数据持久化到数据库模块	第67页
4.3 本章小结	第67-68页
第五章系统测试	第68-77页
5.1 系统环境搭建	第68-72页
5.1.1 Storm集群环境搭建	第68-70页
5.1.2 MongoDB集群环境搭建	第70-72页
5.2 系统测试	第72-76页
5.2.1 系统功能测试	第72-73页
5.2.2 系统性能测试	第73-76页
5.3 本章小结	第76-77页
第六章全文总结与展望	第77-80页
6.1 全文总结	第77-78页
6.2 存在的问题与不足	第78页
6.3 后续工作展望	第78-80页
致谢	第80-81页
参考文献	第81-83页