基于Actor模型的广域分布式爬虫的设计与实现
| 摘要 | 第4-6页 |
| ABSTRACT | 第6-7页 |
| 第一章 绪论 | 第11-17页 |
| 1.1 课题背景 | 第11-13页 |
| 1.1.1 网络爬虫背景 | 第11-12页 |
| 1.1.2 分布式系统背景 | 第12-13页 |
| 1.2 爬虫的工作原理 | 第13-14页 |
| 1.3 课题研究内容与意义 | 第14-16页 |
| 1.4 本文结构安排 | 第16页 |
| 1.5 本章小结 | 第16-17页 |
| 第二章 框架的需求分析 | 第17-22页 |
| 2.1 爬虫需求 | 第17-19页 |
| 2.1.1 作业提交 | 第18页 |
| 2.1.2 作业管理 | 第18页 |
| 2.1.3 作业调度 | 第18-19页 |
| 2.1.4 作业存储 | 第19页 |
| 2.1.5 URL去重 | 第19页 |
| 2.1.6 页面解析 | 第19页 |
| 2.2 分布式需求 | 第19-20页 |
| 2.2.1 系统可扩展性 | 第19-20页 |
| 2.2.2 系统可靠性 | 第20页 |
| 2.2.3 系统可用性 | 第20页 |
| 2.3 性能需求 | 第20-21页 |
| 2.4 其它需求 | 第21页 |
| 2.5 本章小结 | 第21-22页 |
| 第三章 系统总体设计 | 第22-28页 |
| 3.1 总体框架 | 第22页 |
| 3.2 模块划分 | 第22-27页 |
| 3.2.1 Master模块 | 第23-25页 |
| 3.2.2 Slave模块 | 第25-26页 |
| 3.2.3 Worker模块 | 第26页 |
| 3.2.4 Client模块 | 第26-27页 |
| 3.2.5 后端存储模块 | 第27页 |
| 3.3 本章小结 | 第27-28页 |
| 第四章 系统详细设计与实现 | 第28-61页 |
| 4.1 Master模块 | 第28-45页 |
| 4.1.1 相关技术 | 第28-33页 |
| 4.1.2 Master模块结构设计与功能解析 | 第33-34页 |
| 4.1.3 HTTP服务模块 | 第34-35页 |
| 4.1.4 心跳处理模块 | 第35页 |
| 4.1.5 节点管理模块 | 第35-38页 |
| 4.1.6 作业控制模块 | 第38-43页 |
| 4.1.7 重启服务模块 | 第43-44页 |
| 4.1.8 高可用服务模块 | 第44-45页 |
| 4.2 Slave模块 | 第45-53页 |
| 4.2.1 Slave模块结构设计与功能解析 | 第45-46页 |
| 4.2.2 HTTP服务模块 | 第46-47页 |
| 4.2.3 心跳服务模块 | 第47-49页 |
| 4.2.4 任务服务模块 | 第49页 |
| 4.2.5 代理服务模块 | 第49-52页 |
| 4.2.6 Worker管理模块 | 第52-53页 |
| 4.2.7 重启服务模块 | 第53页 |
| 4.3 Worker模块 | 第53-57页 |
| 4.3.1 网页抓取模块 | 第55-56页 |
| 4.3.2 网页解析模块 | 第56页 |
| 4.3.3 心跳模块 | 第56页 |
| 4.3.4 清理服务模块 | 第56-57页 |
| 4.4 后端存储模块 | 第57-59页 |
| 4.4.1 相关技术 | 第57-58页 |
| 4.4.2 HTTP服务模块 | 第58页 |
| 4.4.3 数据写入模块 | 第58-59页 |
| 4.5 Client模块 | 第59-60页 |
| 4.6 本章总结 | 第60-61页 |
| 第五章 系统部署与测试 | 第61-67页 |
| 5.1 系统部署 | 第61页 |
| 5.1.1 硬件环境 | 第61页 |
| 5.1.2 软件环境 | 第61页 |
| 5.2 系统功能测试 | 第61-63页 |
| 5.3 系统性能测试 | 第63-66页 |
| 5.4 测试总结 | 第66-67页 |
| 第六章 总结与展望 | 第67-69页 |
| 6.1 论文工作总结 | 第67页 |
| 6.2 下一步工作计划 | 第67-69页 |
| 参考文献 | 第69-70页 |
| 致谢 | 第70页 |