首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Storm云平台的分布式网络爬虫技术研究与实现

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第10-15页
    1.1 研究工作的背景与意义第10-11页
    1.2 国内外研究现状第11-13页
    1.3 研究内容第13页
    1.4 本论文的结构安排第13-15页
第二章 相关技术介绍第15-30页
    2.1 网络爬虫技术原理第15-20页
        2.1.1 网络爬虫的基本结构及工作流程第15-17页
        2.1.2 抓取策略第17-20页
    2.2 Storm云平台第20-23页
        2.2.1 Storm的基本概念第21-22页
        2.2.2 Storm的运用场景第22-23页
    2.3 非关系型数据库第23-25页
        2.3.1 非关系型数据库介绍第23页
        2.3.2 MongoDB第23-25页
    2.4 微博数据获取技术第25-29页
        2.4.1 基于Open API的数据获取技术第25-26页
        2.4.2 基于模拟登录的数据获取技术第26-29页
        2.4.3 代理获取数据和定时获取数据技术第29页
    2.5 本章小结第29-30页
第三章 分布式网络爬虫系统需求第30-40页
    3.1 系统实现目标第30-31页
    3.2 可行性分析第31-32页
    3.3 功能需求分析第32-38页
        3.3.1 模拟登录功能分析第33页
        3.3.2 URL队列库功能分析第33-34页
        3.3.3 URL优化链接功能分析第34页
        3.3.4 网页下载功能分析第34-35页
        3.3.5 网页解析功能分析第35-38页
        3.3.6 数据存储功能分析第38页
    3.4 性能需求分析第38-39页
    3.5 本章小结第39-40页
第四章 分布式网络爬虫系统设计第40-68页
    4.1 数据库设计第40-43页
        4.1.1 MongoDB集群第40页
        4.1.2 数据库设计第40-43页
    4.2 分布式网络爬虫系统的总体架构设计第43-67页
        4.2.1 Storm集群第43-49页
        4.2.2 分布式网络爬虫结构设计第49-67页
            4.2.2.1 初始化种子URL文档模块第49-50页
            4.2.2.2 模拟登录模块第50-52页
            4.2.2.3 待抓取URL队列库模块第52-53页
            4.2.2.4 URL优化链接模块第53-55页
            4.2.2.5 网页下载模块第55页
            4.2.2.6 网页解析模块第55-67页
            4.2.2.7 数据持久化到数据库模块第67页
    4.3 本章小结第67-68页
第五章 系统测试第68-77页
    5.1 系统环境搭建第68-72页
        5.1.1 Storm集群环境搭建第68-70页
        5.1.2 MongoDB集群环境搭建第70-72页
    5.2 系统测试第72-76页
        5.2.1 系统功能测试第72-73页
        5.2.2 系统性能测试第73-76页
    5.3 本章小结第76-77页
第六章 全文总结与展望第77-80页
    6.1 全文总结第77-78页
    6.2 存在的问题与不足第78页
    6.3 后续工作展望第78-80页
致谢第80-81页
参考文献第81-83页

论文共83页,点击 下载论文
上一篇:类石墨烯二硫化钼纳米复合材料的制备及其光电器件研究
下一篇:电子数据认证规则研究