分布式环境下的网络爬虫系统研究与优化

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-15页
1.1 研究背景	第9-11页
1.1.1 选题背景	第9-10页
1.1.2 研究意义	第10-11页
1.2 研究现状	第11-13页
1.3 论文主要内容	第13页
1.4 论文的组织结构	第13-15页
第二章网络爬虫系统的基础研究	第15-25页
2.1 网络爬虫的特征	第15-16页
2.2 网络爬虫系统关键技术的研究	第16-20页
2.2.1 URL去重策略	第16-17页
2.2.2 网页抓取算法	第17-20页
2.3 网络爬虫的基本组成模块	第20-21页
2.4 MapReduce编程模型	第21-23页
2.5 本章总结	第23-25页
第三章爬虫系统的优化方案及其整体架构	第25-37页
3.1 网络爬虫的工作原理	第25-26页
3.1.1 单机网络爬虫工作原理	第25-26页
3.1.2 分布式网络爬虫的工作原理	第26页
3.2 分布式网络爬虫系统页面抓取模块分析与优化	第26-30页
3.2.1 现有网络爬虫网页抓取模块缺陷分析	第26-27页
3.2.2 网页抓取模块优化方案	第27-30页
3.3 URL去重策略的分析与优化	第30-34页
3.3.1 现有URL去重策略缺陷分析	第30-32页
3.3.2 URL去重策略优化方案	第32-34页
3.4 分布式网络爬虫的总体架构	第34-35页
3.5 本章总结	第35-37页
第四章基于优化方案的网络爬虫具体实现	第37-47页
4.1 网页抓取模块优化方案具体实现	第37-39页
4.2 URL去重策略优化的具体实现	第39-43页
4.3 基于MapReduce生成抓取列表的具体实现	第43-45页
4.3.1 URL预处理的具体实现	第43-44页
4.3.2 待抓取列表生成模块的具体实现	第44-45页
4.4 分布式网络爬虫存储系统设计	第45-46页
4.5 本章总结	第46-47页
第五章实验搭建与测试结果	第47-55页
5.1 实验环境	第47-48页
5.1.1 设备硬件配置	第47页
5.1.2 测试环境软件版本	第47页
5.1.3 Hadoop集群环境搭建	第47-48页
5.2 网页抓取模块实验分析	第48-52页
5.2.1 网页抓取模块的测试方案设计	第49页
5.2.2 实验数据	第49-50页
5.2.3 实验数据分析	第50-52页
5.3 URL去重策略实验分析	第52-54页
5.3.1 URL去重策略测试方案设计	第52页
5.3.2 实验数据	第52-53页
5.3.3 实验数据分析	第53-54页
5.4 本章总结	第54-55页
第六章总结与展望	第55-57页
6.1 本文工作总结	第55-56页
6.2 进一步研究方向	第56-57页
参考文献	第57-61页
致谢	第61页