基于Hadoop的分布式网络爬虫的设计与研究

摘要	第4-6页
Abstract	第6-8页
第1章引言	第11-15页
1.1 课题背景研究	第11页
1.2 国内外研究现状的分析	第11-13页
1.3 课题主要研究内容	第13页
1.4 论文组织结构	第13-15页
第2章系统平台技术的分析	第15-25页
2.1 Hadoop分布式平台分析	第15-20页
2.1.1 HDFS分布式文件系统分析	第16-17页
2.1.2 MapReduce计算框架分析	第17-20页
2.2 网络爬虫技术设计	第20-25页
2.2.1 网络爬虫的搜索策略设计	第20-22页
2.2.2 DNS缓存设计	第22-23页
2.2.3 爬虫身份标识设计	第23页
2.2.4 Robots协议设计	第23页
2.2.5 各类文件解析设计	第23-25页
第3章系统相关技术的研究	第25-29页
3.1 Hbase数据库研究	第25-26页
3.2 Storm实时处理平台分析	第26-27页
3.3 Kafka消息队研究	第27-29页
第4章分布式网络爬虫总体设计	第29-43页
4.1 分布式网络爬虫结构设计	第29-31页
4.2 分布式网络爬虫整体模块设计	第31-32页
4.3 分布式网络爬虫的核心算法选取	第32-37页
4.3.1 PageRank算法的设计	第33-35页
4.3.2 simhash去重算法的设计	第35-37页
4.4 分布式网络爬虫核心模块设计	第37-43页
4.4.1 DNS解析模块设计	第37-38页
4.4.2 抓取模块设计	第38-39页
4.4.3 文件解析模块设计	第39-40页
4.4.4 处理模块设计	第40页
4.4.5 URL获取和判断模块的设计	第40-43页
第5章系统平台搭建及结果分析	第43-52页
5.1 实验平台搭建	第43-48页
5.1.1 实验环境搭建	第43页
5.1.2 安装并配置JDK	第43-44页
5.1.3 创建Hadoop用户	第44页
5.1.4 安装并配置Hadoop	第44-47页
5.1.5 安装并配置SSH	第47页
5.1.6 验证集群搭建成功	第47-48页
5.2 测试结果及分析	第48-52页
5.2.1 功能测试	第48-49页
5.2.2 性能测试	第49-52页
结论	第52-54页
致谢	第54-55页
参考文献	第55-57页
攻读学位期间取得学术成果	第57页