首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

分布式网络爬虫的研究与实现

摘要第4-5页
ABSTRACT第5页
第一章 绪论第8-14页
    1.1 研究背景及意义第8-10页
    1.2 国内外研究现状第10-11页
    1.3 论文主要内容第11页
    1.4 论文章节安排第11-14页
第二章 相关理论与技术第14-24页
    2.1 网络爬虫基本原理第14-18页
        2.1.1 搜索引擎基本原理第14-15页
        2.1.2 网络爬虫工作原理第15-16页
        2.1.3 网络爬虫爬行策略第16-18页
    2.2 Hadoop分布式技术第18-23页
        2.2.1 分布式文件系统HDFS第18-21页
        2.2.2 分布式编程模型MapReduce第21-23页
    2.3 本章小结第23-24页
第三章 分布式URL去重算法研究第24-36页
    3.1 URL去重算法概述第24-25页
    3.2 基于Rabin指纹的URL去重算法第25-29页
        3.2.1 Rabin指纹第25-27页
        3.2.2 算法描述第27-29页
    3.3 基于MapReduce的分布式URL去重算法第29-35页
        3.3.1 算法描述第29-31页
        3.3.2 算法实现第31-35页
    3.4 本章小结第35-36页
第四章 分布式网络爬虫总体设计第36-50页
    4.1 分布式网络爬虫设计需求第36-37页
    4.2 分布式网络爬虫架构设计第37-38页
    4.3 分布式网络爬虫流程设计第38-39页
    4.4 分布式功能模块划分第39-40页
    4.5 分布式功能模块设计第40-47页
        4.5.1 初始URL注入模块第40-42页
        4.5.2 待抓取队列生成模块第42-44页
        4.5.3 网页下载模块第44-46页
        4.5.4 网页解析模块第46-47页
        4.5.5 URL更新模块第47页
    4.6 分布式存储设计第47-48页
    4.7 本章小结第48-50页
第五章 分布式网络爬虫实现以及系统测试第50-66页
    5.1 分布式网络爬虫总体结构实现第50-51页
    5.2 分布式功能模块实现第51-57页
        5.2.1 初始URL注入模块第51-52页
        5.2.2 待抓取队列生成模块第52-54页
        5.2.3 网页下载模块第54-55页
        5.2.4 网页解析模块第55-56页
        5.2.5 URL更新模块第56-57页
    5.3 系统测试第57-64页
        5.3.1 系统测试环境第57-58页
        5.3.2 系统测试方案第58-59页
        5.3.3 测试结果及分析第59-64页
    5.4 本章小结第64-66页
总结与展望第66-68页
参考文献第68-72页
攻读硕士学位期间取得的学术成果第72-74页
致谢第74页

论文共74页,点击 下载论文
上一篇:XX出版传媒集团财务管理内部控制体系优化设计
下一篇:碎片化信息时代下手机新闻客户端的用户体验研究