基于Hadoop的分布式爬虫
| 详细摘要 | 第2-7页 |
| 摘要 | 第7-8页 |
| ABSTRACT | 第8-9页 |
| 第一章 引言背景 | 第12-16页 |
| 1.1 课题研究背景及意义 | 第12-13页 |
| 1.2 云计算的国内外发展现状 | 第13页 |
| 1.3 本文工作 | 第13-15页 |
| 1.4 本文组织结构 | 第15-16页 |
| 第二章 相关理论及技术 | 第16-30页 |
| 2.1 分布式系统与计算 | 第16-19页 |
| 2.1.1 分布式系统的特点和结构 | 第16-19页 |
| 2.1.2 大数据和分布式架构的发展状况 | 第19页 |
| 2.2 Hadoop | 第19-27页 |
| 2.2.1 Map/Reduce分布式计算模型 | 第20-24页 |
| 2.2.2 Hadoop分布式文件系统 | 第24-27页 |
| 2.3 爬虫 | 第27-29页 |
| 2.3.1 爬虫简要介绍 | 第27-28页 |
| 2.3.2 爬虫的类型 | 第28-29页 |
| 2.4 本章小结 | 第29-30页 |
| 第三章 爬虫与分布式架构 | 第30-38页 |
| 3.1 分布式爬虫需求分析 | 第30-31页 |
| 3.2 爬虫功能流程 | 第31-34页 |
| 3.3 分布式爬虫架构 | 第34-37页 |
| 3.3.1 分布式爬虫布局 | 第34-35页 |
| 3.3.2 分布式爬虫的逻辑结构 | 第35-37页 |
| 3.4 本章小结 | 第37-38页 |
| 第四章 爬虫与Hadoop整合优化 | 第38-54页 |
| 4.1 分布式的URL遍历和去重检测方案 | 第38-45页 |
| 4.1.1 分布式下的URL分配方案 | 第39-41页 |
| 4.1.2 分布式URL去重检测 | 第41-44页 |
| 4.1.3 网页去重更新检测 | 第44-45页 |
| 4.2 主题过滤方案 | 第45-49页 |
| 4.2.1 基于关键词扩展的主题爬虫 | 第46-48页 |
| 4.2.2 主题爬虫中的网络隧道问题研究 | 第48页 |
| 4.2.3 主题爬虫在遍历中的加强策略 | 第48-49页 |
| 4.3 模块设计 | 第49-53页 |
| 4.3.1 采集模块 | 第49-51页 |
| 4.3.2 解析模块 | 第51-52页 |
| 4.3.3 URL去重模块 | 第52-53页 |
| 4.3.4 辅助模块 | 第53页 |
| 4.4 本章小结 | 第53-54页 |
| 第五章 实验与性能分析 | 第54-59页 |
| 5.1 实验环境 | 第54页 |
| 5.2 实现方案 | 第54-56页 |
| 5.2.1 配置方案 | 第54-55页 |
| 5.2.2 存储结构 | 第55-56页 |
| 5.3 实验与性能分析 | 第56-59页 |
| 5.3.1 分布式爬虫测试 | 第56-57页 |
| 5.3.2 主题爬虫方案 | 第57-59页 |
| 第六章 总结和展望 | 第59-61页 |
| 6.1 研究工作总结 | 第59页 |
| 6.2 展望 | 第59-61页 |
| 致谢 | 第61-62页 |
| 参考文献 | 第62-66页 |
| 附录 | 第66页 |