基于高实时分布式网络的爬虫软件设计与实现
致谢 | 第4-5页 |
摘要 | 第5-6页 |
Abstract | 第6页 |
1. 绪论 | 第10-20页 |
1.1 研究背景 | 第10-12页 |
1.2 网络爬虫概述 | 第12-16页 |
1.3 分布式爬虫研究概况 | 第16-18页 |
1.4 微博信息挖掘 | 第18-19页 |
1.5 本文的目标与组织结构 | 第19-20页 |
2. 关键技术介绍 | 第20-40页 |
2.1 爬虫策略 | 第20-26页 |
2.2 主题爬取策略 | 第26-31页 |
2.3 分布式系统通信方案 | 第31-36页 |
2.4 网页存储技术 | 第36-40页 |
3. 方案设计与实现 | 第40-68页 |
3.1 分布式爬虫系统需求分析 | 第40-41页 |
3.2 分布式爬虫系统整体设计 | 第41-42页 |
3.3 主控节点设计 | 第42-50页 |
3.4 爬虫节点的实现 | 第50-60页 |
3.5 存储模块设计 | 第60-62页 |
3.6 主题发现模块的实现 | 第62-68页 |
4. 系统测试验证 | 第68-75页 |
4.1 测试环境 | 第68-69页 |
4.2 功能验证 | 第69-70页 |
4.3 性能测试 | 第70-75页 |
5. 总结与展望 | 第75-77页 |
5.1 工作总结 | 第75-76页 |
5.2 未来展望 | 第76-77页 |
参考文献 | 第77-81页 |
作者简历 | 第81页 |