网站信息按需采集系统中爬虫子系统的设计与实现

摘要	第1-5页
ABSTRACT	第5-6页
第一章绪论	第6-14页
·研究的背景	第6-8页
·国内外研究现状	第8-11页
·爬虫理论研究	第9-10页
·爬虫的具体实现方法	第10-11页
·研究的目的及意义	第11-12页
·本文的主要研究内容	第12页
·多任务管理和分配	第12页
·爬虫间负载均衡和爬虫加入退出处理	第12页
·并行爬虫的实现	第12页
·论文的构成	第12-14页
第二章关键技术研究	第14-32页
·问题陈述	第14-15页
·系统框架图	第15-16页
·爬虫系统的任务流图	第16-17页
·基础知识	第17-23页
·IP地址	第17-18页
·端口	第18-20页
·端客户机和服务器	第20-21页
·URL	第21-22页
·HTTP协议	第22-23页
·网页搜索引擎	第23-28页
·搜索引擎的发展现状与趋势	第23-26页
·搜索引擎的分类	第26页
·搜索引擎的工作原理	第26-27页
·网页搜索策略	第27-28页
·网络爬虫的种类	第28-29页
·网络爬虫的爬行策略	第29-30页
·通信库	第30-32页
第三章 Master节点的设计与实现	第32-40页
·Master节点功能概述	第32-33页
·Master功能详细实现	第33-36页
·任务下发	第33-34页
·任务完成	第34页
·Worker节点加入	第34-35页
·Worker节点退出	第35-36页
·任务调度算法	第36-40页
·取模法	第36-37页
·一致性Hash算法	第37-40页
第四章 Worker节点的设计	第40-50页
·Worker节点概述	第40页
·CrawlerManager设计	第40-43页
·Crawler的设计	第43-50页
·爬虫概述	第43-44页
·爬虫搜索策略	第44-45页
·爬虫搜索策略	第45-50页
第五章结论与展望	第50-53页
·爬虫测试	第50-51页
·单系统效率测试	第50-51页
·系统扩展性测试	第51页
·爬虫健壮性测试	第51页
·系统总结评价	第51-53页
参考文献	第53-55页
致谢	第55-56页