一种基于Hadoop的分布式网络爬虫的研究与设计

摘要	第4-6页
ABSTRACT	第6-7页
第一章绪论	第11-15页
1.1 课题的研究背景	第11-12页
1.2 课题的研究内容与现状	第12-14页
1.3 本文的内容和结构	第14页
1.4 本章小结	第14-15页
第二章相关研究工作综述	第15-34页
2.1 搜索引擎技术综述	第15-19页
2.1.1 搜索引擎中索引的建立	第16-18页
2.1.2 搜索引擎中搜索结果排序	第18-19页
2.2 网络爬虫概述	第19-22页
2.2.1 网络爬虫的基本构成	第19-20页
2.2.2 网络爬虫的研究现状	第20-22页
2.3 云计算发展综述	第22-27页
2.3.1 云计算的发展现状	第23-24页
2.3.2 云计算的特点	第24-25页
2.3.3 云计算的体系结构与服务层次	第25-27页
2.4 Hadoop分布式系统综述	第27-33页
2.4.1 Hadoop的分布式文件系统	第27-28页
2.4.2 HBase数据库与Zookeeper	第28-30页
2.4.3 MapReduce分布式框架编程模型	第30-33页
2.5 本章小结	第33-34页
第三章分布式网络爬虫的分析与概要设计	第34-47页
3.1 分布式网络爬虫系统布局	第34-36页
3.1.1 分布式平台的系统架构	第34-35页
3.1.2 分布式爬虫的总体流程设计	第35-36页
3.2 网络爬虫的爬取相关技术分析	第36-41页
3.2.1 网络爬虫的爬取深度策略	第36-37页
3.2.2 Robots 协议简介	第37-38页
3.2.3 DNS以及爬虫相关解决方案分析	第38-39页
3.2.4 网络爬虫消重策略分析	第39-40页
3.2.5 跨语言服务开发框架Apache Thrift	第40-41页
3.3 分布式网络爬虫的结构设计	第41-46页
3.3.1 配置模块设计	第42-44页
3.3.2 存储模块设计	第44-46页
3.3.3 任务管理模块设计	第46页
3.3.4 爬取模块设计	第46页
3.4 本章小结	第46-47页
第四章分布式网络爬虫的详细设计与实现	第47-57页
4.1 分布式网络爬虫的接口设计	第47-51页
4.1.1 网页接口的设计与实现	第47-48页
4.1.2 Thrift程序接口的设计与实现	第48-51页
4.2 分布式网络爬虫的数据信息	第51-52页
4.2.1 URL的状态信息	第51页
4.2.2 页面信息	第51页
4.2.3 页面解析信息	第51-52页
4.3 分布式爬虫的主要模块分析与实现	第52-56页
4.3.1 URL注入模块	第52-53页
4.3.2 待爬取URL列表生成模块	第53-55页
4.3.3 爬取与更新模块	第55-56页
4.4 本章小结	第56-57页
第五章分布式网络爬虫的实验测试与分析	第57-69页
5.1 分布式平台的软硬件环境	第57-60页
5.1.1 硬件环境介绍	第57-58页
5.1.2 软件环境介绍	第58-60页
5.2 分布式网络爬虫的部署	第60-64页
5.2.1 系统环境配置	第60-63页
5.2.2 爬虫的部署与基本测试	第63-64页
5.3 分布式网络爬虫的系统测试与分析	第64-68页
5.3.1 基本功能测试	第65-66页
5.3.2 性能测试	第66-67页
5.3.3 测试结果分析	第67-68页
5.4 本章小结	第68-69页
第六章总结与展望	第69-71页
6.1 总结	第69-70页
6.2 工作展望	第70-71页
参考文献	第71-73页
致谢	第73页