首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Hadoop的分布式网络爬虫的设计与研究

摘要第4-6页
Abstract第6-8页
第1章 引言第11-15页
    1.1 课题背景研究第11页
    1.2 国内外研究现状的分析第11-13页
    1.3 课题主要研究内容第13页
    1.4 论文组织结构第13-15页
第2章 系统平台技术的分析第15-25页
    2.1 Hadoop分布式平台分析第15-20页
        2.1.1 HDFS分布式文件系统分析第16-17页
        2.1.2 MapReduce计算框架分析第17-20页
    2.2 网络爬虫技术设计第20-25页
        2.2.1 网络爬虫的搜索策略设计第20-22页
        2.2.2 DNS缓存设计第22-23页
        2.2.3 爬虫身份标识设计第23页
        2.2.4 Robots协议设计第23页
        2.2.5 各类文件解析设计第23-25页
第3章 系统相关技术的研究第25-29页
    3.1 Hbase数据库研究第25-26页
    3.2 Storm实时处理平台分析第26-27页
    3.3 Kafka消息队研究第27-29页
第4章 分布式网络爬虫总体设计第29-43页
    4.1 分布式网络爬虫结构设计第29-31页
    4.2 分布式网络爬虫整体模块设计第31-32页
    4.3 分布式网络爬虫的核心算法选取第32-37页
        4.3.1 PageRank算法的设计第33-35页
        4.3.2 simhash去重算法的设计第35-37页
    4.4 分布式网络爬虫核心模块设计第37-43页
        4.4.1 DNS解析模块设计第37-38页
        4.4.2 抓取模块设计第38-39页
        4.4.3 文件解析模块设计第39-40页
        4.4.4 处理模块设计第40页
        4.4.5 URL获取和判断模块的设计第40-43页
第5章 系统平台搭建及结果分析第43-52页
    5.1 实验平台搭建第43-48页
        5.1.1 实验环境搭建第43页
        5.1.2 安装并配置JDK第43-44页
        5.1.3 创建Hadoop用户第44页
        5.1.4 安装并配置Hadoop第44-47页
        5.1.5 安装并配置SSH第47页
        5.1.6 验证集群搭建成功第47-48页
    5.2 测试结果及分析第48-52页
        5.2.1 功能测试第48-49页
        5.2.2 性能测试第49-52页
结论第52-54页
致谢第54-55页
参考文献第55-57页
攻读学位期间取得学术成果第57页

论文共57页,点击 下载论文
上一篇:基于Android的嵌入式温室环境监测网关系统的设计与实现
下一篇:多特征融合的视觉显著性检测方法研究