基于Hadoop的分布式爬虫

详细摘要	第2-7页
摘要	第7-8页
ABSTRACT	第8-9页
第一章引言背景	第12-16页
1.1 课题研究背景及意义	第12-13页
1.2 云计算的国内外发展现状	第13页
1.3 本文工作	第13-15页
1.4 本文组织结构	第15-16页
第二章相关理论及技术	第16-30页
2.1 分布式系统与计算	第16-19页
2.1.1 分布式系统的特点和结构	第16-19页
2.1.2 大数据和分布式架构的发展状况	第19页
2.2 Hadoop	第19-27页
2.2.1 Map/Reduce分布式计算模型	第20-24页
2.2.2 Hadoop分布式文件系统	第24-27页
2.3 爬虫	第27-29页
2.3.1 爬虫简要介绍	第27-28页
2.3.2 爬虫的类型	第28-29页
2.4 本章小结	第29-30页
第三章爬虫与分布式架构	第30-38页
3.1 分布式爬虫需求分析	第30-31页
3.2 爬虫功能流程	第31-34页
3.3 分布式爬虫架构	第34-37页
3.3.1 分布式爬虫布局	第34-35页
3.3.2 分布式爬虫的逻辑结构	第35-37页
3.4 本章小结	第37-38页
第四章爬虫与Hadoop整合优化	第38-54页
4.1 分布式的URL遍历和去重检测方案	第38-45页
4.1.1 分布式下的URL分配方案	第39-41页
4.1.2 分布式URL去重检测	第41-44页
4.1.3 网页去重更新检测	第44-45页
4.2 主题过滤方案	第45-49页
4.2.1 基于关键词扩展的主题爬虫	第46-48页
4.2.2 主题爬虫中的网络隧道问题研究	第48页
4.2.3 主题爬虫在遍历中的加强策略	第48-49页
4.3 模块设计	第49-53页
4.3.1 采集模块	第49-51页
4.3.2 解析模块	第51-52页
4.3.3 URL去重模块	第52-53页
4.3.4 辅助模块	第53页
4.4 本章小结	第53-54页
第五章实验与性能分析	第54-59页
5.1 实验环境	第54页
5.2 实现方案	第54-56页
5.2.1 配置方案	第54-55页
5.2.2 存储结构	第55-56页
5.3 实验与性能分析	第56-59页
5.3.1 分布式爬虫测试	第56-57页
5.3.2 主题爬虫方案	第57-59页
第六章总结和展望	第59-61页
6.1 研究工作总结	第59页
6.2 展望	第59-61页
致谢	第61-62页
参考文献	第62-66页
附录	第66页