基于Hadoop的分布式网络爬虫设计与实现

摘要	第4-5页
ABSTRACT	第5-6页
符号对照表	第7-11页
第一章绪论	第11-17页
1.1 研究背景与意义	第11-12页
1.2 国内外研究现状	第12-14页
1.3 论文主要内容	第14页
1.4 论文组织结构	第14-17页
第二章相关技术介绍	第17-29页
2.1 网络爬虫技术	第17-19页
2.1.1 网络爬虫基本原理	第17-18页
2.1.2 网页搜索策略	第18-19页
2.2 Hadoop分布式技术	第19-28页
2.2.1 HDFS分布式文件系统	第19-22页
2.2.2 YARN资源管理系统	第22-24页
2.2.3 MapReduce分布式计算框架	第24-26页
2.2.4 ZooKeeper分布式协调服务	第26页
2.2.5 HadoopHA高可用	第26-28页
2.3 本章小结	第28-29页
第三章 URL去重算法研究	第29-45页
3.1 常见URL去重算法介绍	第29-31页
3.2 基于SimHash的网页去重算法	第31-35页
3.2.1 SimHash算法介绍	第31-32页
3.2.2 基于SimHash算法进行网页去重	第32-35页
3.3 基于SimHash的分布式URL去重算法	第35-44页
3.3.1 算法基本原理	第35-36页
3.3.2 算法分布式实现	第36-44页
3.4 本章小结	第44-45页
第四章分布式网络爬虫系统设计与实现	第45-63页
4.1 分布式网络爬虫需求分析	第45-46页
4.2 分布式网络爬虫总体设计	第46-51页
4.2.1 分布式网络爬虫系统架构设计	第46-47页
4.2.2 分布式网络爬虫工作流程设计	第47-49页
4.2.3 分布式网络爬虫功能结构设计	第49-50页
4.2.4 分布式网络爬虫分布式存储设计	第50-51页
4.3 分布式网络爬虫详细设计与实现	第51-62页
4.3.1 初始化URL种子模块	第51-53页
4.3.2 待抓取URL队列生成模块	第53-55页
4.3.3 网页抓取模块	第55-58页
4.3.4 网页解析模块	第58-59页
4.3.5 URL网页去重模块	第59-61页
4.3.6 系统总调度模块各功能类说明	第61-62页
4.4 本章小结	第62-63页
第五章系统测试与结果分析	第63-75页
5.1 系统测试环境	第63-67页
5.1.1 系统软硬件环境	第63-64页
5.1.2 搭建HadoopHA高可用分布式集群系统环境	第64-67页
5.2 系统测试	第67-74页
5.2.1 系统功能测试	第67-68页
5.2.2 系统性能测试	第68-70页
5.2.3 系统可扩展性测试	第70-71页
5.2.4 系统高可用性测试	第71-73页
5.2.5 URL去重算法比较测试	第73-74页
5.3 本章小结	第74-75页
总结与展望	第75-77页
参考文献	第77-81页
致谢	第81-83页
攻读硕士学位期间取得的科研成果	第83-84页