首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于分布式的网络爬虫系统的研究与实现

摘要第5-6页
abstract第6-7页
第一章 绪论第11-16页
    1.1 研究背景与意义第11-12页
    1.2 国内外研究现状第12-14页
    1.3 主要研究内容第14页
    1.4 本论文的结构安排第14-16页
第二章 相关技术介绍第16-30页
    2.1 网络爬虫技术第16-21页
        2.1.1 网络爬虫基本结构第16-17页
        2.1.2 网络爬虫分类第17-18页
        2.1.3 网络爬虫爬行策略第18-20页
        2.1.4 分布式网络爬虫结构第20-21页
    2.2 Storm流计算框架第21-27页
        2.2.1 实时流计算第21-23页
        2.2.2 Storm基本概念第23-25页
        2.2.3 Ack可靠传输机制第25-27页
    2.3 非关系型数据库第27-29页
        2.3.1 Redis数据库第27-28页
        2.3.2 MongoDB数据库第28-29页
    2.4 本章小结第29-30页
第三章 分布式网络爬虫系统需求分析第30-36页
    3.1 系统概述第30页
    3.2 功能性需求第30-34页
        3.2.1 URL处理用例第31-32页
        3.2.2 网站URL处理用例第32-33页
        3.2.3 URL爬取用例第33-34页
        3.2.4 计划任务用例第34页
    3.3 非功能性需求第34-35页
    3.4 本章小结第35-36页
第四章 分布式网络爬虫系统设计第36-53页
    4.1 系统总体设计第36-38页
        4.1.1 系统架构设计第36-37页
        4.1.2 系统功能结构设计第37-38页
    4.2 数据库设计第38-43页
        4.2.1 数据结构设计第38-39页
        4.2.2 MongoDB集群第39-41页
        4.2.3 Redis集群第41-43页
    4.3 Storm分布式平台设计第43-48页
        4.3.1 Storm数据流模型设计第43-45页
        4.3.2 基于多布隆过滤器的URL去重算法设计第45-48页
    4.4 Scrapy爬虫设计第48-51页
        4.4.1 Scrapy爬虫结构设计第48-49页
        4.4.2 基于优先级的广度优先爬行策略设计第49-51页
    4.5 系统功能模块设计第51-52页
    4.6 本章小结第52-53页
第五章 分布式网络爬虫系统实现第53-75页
    5.1 URL处理Topology各功能模块实现第53-60页
        5.1.1 URL读取模块实现第53-55页
        5.1.2 URL去重模块实现第55-57页
        5.1.3 域名模块实现第57页
        5.1.4 URL存储模块实现第57-60页
        5.1.5 URL处理拓扑模块实现第60页
    5.2 网站URL处理Topology各功能模块实现第60-64页
        5.2.1 网站URL读取模块实现第60-61页
        5.2.2 URL聚集模块实现第61-62页
        5.2.3 URL爬取模块实现第62-63页
        5.2.4 网站URL处理拓扑模块实现第63-64页
    5.3 Scrapy爬虫各功能模块实现第64-72页
        5.3.1 爬虫模块实现第64-69页
        5.3.2 数据清洗模块实现第69-70页
        5.3.3 数据存储模块实现第70-72页
    5.4 种子URL模块实现第72-73页
    5.5 计划任务模块实现第73-74页
    5.6 本章小结第74-75页
第六章 分布式网络爬虫系统测试第75-89页
    6.1 系统环境搭建第75-81页
        6.1.1 Storm集群搭建第75-77页
        6.1.2 MongoDB集群搭建第77-79页
        6.1.3 Redis集群搭建第79-81页
    6.2 系统功能测试第81-86页
        6.2.1 URL处理Topology测试第81-82页
        6.2.2 网站URL处理Topology测试第82-83页
        6.2.3 Scrapy爬虫测试第83-84页
        6.2.4 整体测试第84-86页
    6.3 系统性能测试第86-88页
        6.3.1 基于多布隆过滤器的URL去重算法误识别率测试第86-87页
        6.3.2 爬取速度测试第87-88页
    6.4 本章小结第88-89页
第七章 全文总结与展望第89-91页
    7.1 全文总结第89-90页
    7.2 后续工作展望第90-91页
致谢第91-92页
参考文献第92-95页
攻读硕士学位期间取得的成果第95-96页

论文共96页,点击 下载论文
上一篇:毫米波波段带状注行波器件聚焦系统研究
下一篇:基于人工电磁超材料的磁窗天线研究