摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
符号对照表 | 第7-11页 |
第一章 绪论 | 第11-17页 |
1.1 研究背景与意义 | 第11-12页 |
1.2 国内外研究现状 | 第12-14页 |
1.3 论文主要内容 | 第14页 |
1.4 论文组织结构 | 第14-17页 |
第二章 相关技术介绍 | 第17-29页 |
2.1 网络爬虫技术 | 第17-19页 |
2.1.1 网络爬虫基本原理 | 第17-18页 |
2.1.2 网页搜索策略 | 第18-19页 |
2.2 Hadoop分布式技术 | 第19-28页 |
2.2.1 HDFS分布式文件系统 | 第19-22页 |
2.2.2 YARN资源管理系统 | 第22-24页 |
2.2.3 MapReduce分布式计算框架 | 第24-26页 |
2.2.4 ZooKeeper分布式协调服务 | 第26页 |
2.2.5 HadoopHA高可用 | 第26-28页 |
2.3 本章小结 | 第28-29页 |
第三章 URL去重算法研究 | 第29-45页 |
3.1 常见URL去重算法介绍 | 第29-31页 |
3.2 基于SimHash的网页去重算法 | 第31-35页 |
3.2.1 SimHash算法介绍 | 第31-32页 |
3.2.2 基于SimHash算法进行网页去重 | 第32-35页 |
3.3 基于SimHash的分布式URL去重算法 | 第35-44页 |
3.3.1 算法基本原理 | 第35-36页 |
3.3.2 算法分布式实现 | 第36-44页 |
3.4 本章小结 | 第44-45页 |
第四章 分布式网络爬虫系统设计与实现 | 第45-63页 |
4.1 分布式网络爬虫需求分析 | 第45-46页 |
4.2 分布式网络爬虫总体设计 | 第46-51页 |
4.2.1 分布式网络爬虫系统架构设计 | 第46-47页 |
4.2.2 分布式网络爬虫工作流程设计 | 第47-49页 |
4.2.3 分布式网络爬虫功能结构设计 | 第49-50页 |
4.2.4 分布式网络爬虫分布式存储设计 | 第50-51页 |
4.3 分布式网络爬虫详细设计与实现 | 第51-62页 |
4.3.1 初始化URL种子模块 | 第51-53页 |
4.3.2 待抓取URL队列生成模块 | 第53-55页 |
4.3.3 网页抓取模块 | 第55-58页 |
4.3.4 网页解析模块 | 第58-59页 |
4.3.5 URL网页去重模块 | 第59-61页 |
4.3.6 系统总调度模块各功能类说明 | 第61-62页 |
4.4 本章小结 | 第62-63页 |
第五章 系统测试与结果分析 | 第63-75页 |
5.1 系统测试环境 | 第63-67页 |
5.1.1 系统软硬件环境 | 第63-64页 |
5.1.2 搭建HadoopHA高可用分布式集群系统环境 | 第64-67页 |
5.2 系统测试 | 第67-74页 |
5.2.1 系统功能测试 | 第67-68页 |
5.2.2 系统性能测试 | 第68-70页 |
5.2.3 系统可扩展性测试 | 第70-71页 |
5.2.4 系统高可用性测试 | 第71-73页 |
5.2.5 URL去重算法比较测试 | 第73-74页 |
5.3 本章小结 | 第74-75页 |
总结与展望 | 第75-77页 |
参考文献 | 第77-81页 |
致谢 | 第81-83页 |
攻读硕士学位期间取得的科研成果 | 第83-84页 |