首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Docker集群的分布式爬虫研究与设计

摘要第4-5页
ABSTRACT第5页
第一章 绪论第8-13页
    1.1 研究背景及研究意义第8-9页
    1.2 国内外研究现状第9-10页
        1.2.1 分布式爬虫的研究现状第9-10页
        1.2.2 Docker集群的研究现状第10页
    1.3 论文的主要工作第10-11页
    1.4 论文章节安排第11-13页
第二章 相关技术研究第13-27页
    2.1 Docker容器技术第13-15页
    2.2 Docker容器集群技术第15-20页
    2.3 分布式爬虫技术第20-23页
    2.4 Bloom filter算法第23-24页
    2.5 其他相关技术第24-26页
        2.5.1 一致性Hash算法第24-25页
        2.5.2 Redis集群第25-26页
    2.6 本章小结第26-27页
第三章 基于Docker集群分布式爬虫系统设计第27-39页
    3.1 系统设计目标第27-28页
    3.2 系统整体架构设计第28页
    3.3 分布式爬虫系统设计第28-33页
        3.3.1 分布式爬虫整体架构第28-29页
        3.3.2 分布式爬虫模块功能第29-30页
        3.3.3 模块之间重要交互第30-31页
        3.3.4 重要模块的设计第31-33页
        3.3.5 系统对外提供接口第33页
    3.4 分布式爬虫内容去重设计第33-37页
        3.4.1 页面内容的分词处理第33-34页
        3.4.2 贝叶斯分类算法第34-36页
        3.4.3 SimHash算法第36-37页
    3.5 分布式爬虫部署设计第37-38页
    3.6 本章小结第38-39页
第四章 基于Docker集群的分布式爬虫实现第39-52页
    4.1 爬虫种子管理模块实现第39-40页
    4.2 爬虫调度模块实现第40-42页
    4.3 URL去重模块实现第42-43页
    4.4 页面内容去重实现第43-47页
        4.4.1 正向最大匹配法分词的实现第43-45页
        4.4.2 贝叶斯分类算法实现第45-46页
        4.4.3 SimHash算法实现第46-47页
    4.5 爬虫环境的搭建第47-50页
    4.6 系统运行效果第50-51页
    4.7 本章小结第51-52页
第五章 系统性能测试第52-62页
    5.1 使用Docker集群与使用VM集群的性能对比第52-60页
        5.1.1 Docker与VM的性能对比第52-56页
        5.1.2 使用Docker与使用VM的单个爬虫性能对比第56-57页
        5.1.3 使用Docker集群与使用VM集群的分布式爬虫性能对比第57-60页
    5.2 改进的K分型Bloom filter与Bloom filter算法的性能对比第60-61页
    5.3 本章小结第61-62页
第六章 总结与展望第62-64页
    6.1 论文工作总结第62页
    6.2 研究展望第62-64页
参考文献第64-68页
攻读学位期间的研究成果第68-69页
致谢第69页

论文共69页,点击 下载论文
上一篇:基于HSI空间与小波变换的彩色图像去雾方法
下一篇:基于图像处理技术的AOI系统的研究