网站信息按需采集系统中爬虫子系统的设计与实现
摘要 | 第1-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第6-14页 |
·研究的背景 | 第6-8页 |
·国内外研究现状 | 第8-11页 |
·爬虫理论研究 | 第9-10页 |
·爬虫的具体实现方法 | 第10-11页 |
·研究的目的及意义 | 第11-12页 |
·本文的主要研究内容 | 第12页 |
·多任务管理和分配 | 第12页 |
·爬虫间负载均衡和爬虫加入退出处理 | 第12页 |
·并行爬虫的实现 | 第12页 |
·论文的构成 | 第12-14页 |
第二章 关键技术研究 | 第14-32页 |
·问题陈述 | 第14-15页 |
·系统框架图 | 第15-16页 |
·爬虫系统的任务流图 | 第16-17页 |
·基础知识 | 第17-23页 |
·IP地址 | 第17-18页 |
·端口 | 第18-20页 |
·端客户机和服务器 | 第20-21页 |
·URL | 第21-22页 |
·HTTP协议 | 第22-23页 |
·网页搜索引擎 | 第23-28页 |
·搜索引擎的发展现状与趋势 | 第23-26页 |
·搜索引擎的分类 | 第26页 |
·搜索引擎的工作原理 | 第26-27页 |
·网页搜索策略 | 第27-28页 |
·网络爬虫的种类 | 第28-29页 |
·网络爬虫的爬行策略 | 第29-30页 |
·通信库 | 第30-32页 |
第三章 Master节点的设计与实现 | 第32-40页 |
·Master节点功能概述 | 第32-33页 |
·Master功能详细实现 | 第33-36页 |
·任务下发 | 第33-34页 |
·任务完成 | 第34页 |
·Worker节点加入 | 第34-35页 |
·Worker节点退出 | 第35-36页 |
·任务调度算法 | 第36-40页 |
·取模法 | 第36-37页 |
·一致性Hash算法 | 第37-40页 |
第四章 Worker节点的设计 | 第40-50页 |
·Worker节点概述 | 第40页 |
·CrawlerManager设计 | 第40-43页 |
·Crawler的设计 | 第43-50页 |
·爬虫概述 | 第43-44页 |
·爬虫搜索策略 | 第44-45页 |
·爬虫搜索策略 | 第45-50页 |
第五章 结论与展望 | 第50-53页 |
·爬虫测试 | 第50-51页 |
·单系统效率测试 | 第50-51页 |
·系统扩展性测试 | 第51页 |
·爬虫健壮性测试 | 第51页 |
·系统总结评价 | 第51-53页 |
参考文献 | 第53-55页 |
致谢 | 第55-56页 |