基于高实时分布式网络的爬虫软件设计与实现
| 致谢 | 第4-5页 |
| 摘要 | 第5-6页 |
| Abstract | 第6页 |
| 1. 绪论 | 第10-20页 |
| 1.1 研究背景 | 第10-12页 |
| 1.2 网络爬虫概述 | 第12-16页 |
| 1.3 分布式爬虫研究概况 | 第16-18页 |
| 1.4 微博信息挖掘 | 第18-19页 |
| 1.5 本文的目标与组织结构 | 第19-20页 |
| 2. 关键技术介绍 | 第20-40页 |
| 2.1 爬虫策略 | 第20-26页 |
| 2.2 主题爬取策略 | 第26-31页 |
| 2.3 分布式系统通信方案 | 第31-36页 |
| 2.4 网页存储技术 | 第36-40页 |
| 3. 方案设计与实现 | 第40-68页 |
| 3.1 分布式爬虫系统需求分析 | 第40-41页 |
| 3.2 分布式爬虫系统整体设计 | 第41-42页 |
| 3.3 主控节点设计 | 第42-50页 |
| 3.4 爬虫节点的实现 | 第50-60页 |
| 3.5 存储模块设计 | 第60-62页 |
| 3.6 主题发现模块的实现 | 第62-68页 |
| 4. 系统测试验证 | 第68-75页 |
| 4.1 测试环境 | 第68-69页 |
| 4.2 功能验证 | 第69-70页 |
| 4.3 性能测试 | 第70-75页 |
| 5. 总结与展望 | 第75-77页 |
| 5.1 工作总结 | 第75-76页 |
| 5.2 未来展望 | 第76-77页 |
| 参考文献 | 第77-81页 |
| 作者简历 | 第81页 |