并行网络爬虫设计与实现

论文摘要	第1-7页
Abstract	第7-9页
第1章绪论	第9-14页
(一) 项目背景	第9-10页
(二) 搜索引擎的市场及学术研究概况	第10-12页
(三) 研究目标及意义	第12-13页
(四) 文章结构	第13-14页
第2章网页获取相关技术	第14-26页
(一) URL地址格式	第14页
(二) HTTP协议	第14-17页
(三) HTML的解析	第17-18页
(四) HTTPCLIENT	第18-20页
(五) URL消重	第20-22页
(六) DNS缓冲策略	第22-25页
(七) 页面爬行策略	第25-26页
第3章并行计算技术	第26-30页
(一) MAP/REDUCE计算模型	第26-27页
(二) MAP/REDUCE实现	第27-30页
第4章并行网络爬虫系统的设计与实现	第30-46页
(一) 并行爬虫的设计	第30页
(二) MASTER模块的设计	第30-34页
(三) WORKER模块的设计	第34-41页
(四) DNS缓冲结构的设计	第41-42页
(五) 并行网络爬虫的实现	第42-46页
第5章系统测试	第46-51页
(一) URL消重算法测试	第46-48页
(二) 并行爬虫系统测试	第48-51页
第6章总结与展望	第51-52页
参考文献	第52-55页
攻读学位期间发表的学术论文	第55-56页
致谢	第56-57页