并行网络爬虫设计与实现
论文摘要 | 第1-7页 |
Abstract | 第7-9页 |
第1章 绪论 | 第9-14页 |
(一) 项目背景 | 第9-10页 |
(二) 搜索引擎的市场及学术研究概况 | 第10-12页 |
(三) 研究目标及意义 | 第12-13页 |
(四) 文章结构 | 第13-14页 |
第2章 网页获取相关技术 | 第14-26页 |
(一) URL地址格式 | 第14页 |
(二) HTTP协议 | 第14-17页 |
(三) HTML的解析 | 第17-18页 |
(四) HTTPCLIENT | 第18-20页 |
(五) URL消重 | 第20-22页 |
(六) DNS缓冲策略 | 第22-25页 |
(七) 页面爬行策略 | 第25-26页 |
第3章 并行计算技术 | 第26-30页 |
(一) MAP/REDUCE计算模型 | 第26-27页 |
(二) MAP/REDUCE实现 | 第27-30页 |
第4章 并行网络爬虫系统的设计与实现 | 第30-46页 |
(一) 并行爬虫的设计 | 第30页 |
(二) MASTER模块的设计 | 第30-34页 |
(三) WORKER模块的设计 | 第34-41页 |
(四) DNS缓冲结构的设计 | 第41-42页 |
(五) 并行网络爬虫的实现 | 第42-46页 |
第5章 系统测试 | 第46-51页 |
(一) URL消重算法测试 | 第46-48页 |
(二) 并行爬虫系统测试 | 第48-51页 |
第6章 总结与展望 | 第51-52页 |
参考文献 | 第52-55页 |
攻读学位期间发表的学术论文 | 第55-56页 |
致谢 | 第56-57页 |