网站信息按需采集系统中爬虫子系统的设计与实现
| 摘要 | 第1-5页 |
| ABSTRACT | 第5-6页 |
| 第一章 绪论 | 第6-14页 |
| ·研究的背景 | 第6-8页 |
| ·国内外研究现状 | 第8-11页 |
| ·爬虫理论研究 | 第9-10页 |
| ·爬虫的具体实现方法 | 第10-11页 |
| ·研究的目的及意义 | 第11-12页 |
| ·本文的主要研究内容 | 第12页 |
| ·多任务管理和分配 | 第12页 |
| ·爬虫间负载均衡和爬虫加入退出处理 | 第12页 |
| ·并行爬虫的实现 | 第12页 |
| ·论文的构成 | 第12-14页 |
| 第二章 关键技术研究 | 第14-32页 |
| ·问题陈述 | 第14-15页 |
| ·系统框架图 | 第15-16页 |
| ·爬虫系统的任务流图 | 第16-17页 |
| ·基础知识 | 第17-23页 |
| ·IP地址 | 第17-18页 |
| ·端口 | 第18-20页 |
| ·端客户机和服务器 | 第20-21页 |
| ·URL | 第21-22页 |
| ·HTTP协议 | 第22-23页 |
| ·网页搜索引擎 | 第23-28页 |
| ·搜索引擎的发展现状与趋势 | 第23-26页 |
| ·搜索引擎的分类 | 第26页 |
| ·搜索引擎的工作原理 | 第26-27页 |
| ·网页搜索策略 | 第27-28页 |
| ·网络爬虫的种类 | 第28-29页 |
| ·网络爬虫的爬行策略 | 第29-30页 |
| ·通信库 | 第30-32页 |
| 第三章 Master节点的设计与实现 | 第32-40页 |
| ·Master节点功能概述 | 第32-33页 |
| ·Master功能详细实现 | 第33-36页 |
| ·任务下发 | 第33-34页 |
| ·任务完成 | 第34页 |
| ·Worker节点加入 | 第34-35页 |
| ·Worker节点退出 | 第35-36页 |
| ·任务调度算法 | 第36-40页 |
| ·取模法 | 第36-37页 |
| ·一致性Hash算法 | 第37-40页 |
| 第四章 Worker节点的设计 | 第40-50页 |
| ·Worker节点概述 | 第40页 |
| ·CrawlerManager设计 | 第40-43页 |
| ·Crawler的设计 | 第43-50页 |
| ·爬虫概述 | 第43-44页 |
| ·爬虫搜索策略 | 第44-45页 |
| ·爬虫搜索策略 | 第45-50页 |
| 第五章 结论与展望 | 第50-53页 |
| ·爬虫测试 | 第50-51页 |
| ·单系统效率测试 | 第50-51页 |
| ·系统扩展性测试 | 第51页 |
| ·爬虫健壮性测试 | 第51页 |
| ·系统总结评价 | 第51-53页 |
| 参考文献 | 第53-55页 |
| 致谢 | 第55-56页 |