首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Scrapy的分布式网络爬虫系统的设计与开发

摘要第4-5页
Abstract第5页
第1章 绪论第8-14页
    1.1 研究背景及意义第8-9页
    1.2 国内外相关领域的研究现状第9-10页
        1.2.1 动态数据获取方法研究现状第9-10页
        1.2.2 新浪微博爬虫策略研究现状第10页
    1.3 本文的研究内容第10-11页
    1.4 论文的组织结构第11-14页
第2章 基于Scrapy框架的动态数据获取方法第14-30页
    2.1 Scrapy框架的研究第14-16页
        2.1.1 Scrapy框架的工作原理第14-15页
        2.1.2 Scrapy框架的扩展原理第15-16页
    2.2 动态数据获取方法第16-23页
        2.2.1 动态数据获取整体流程设计第16-19页
        2.2.2 请求重构模块设计第19-21页
        2.2.3 请求及响应解析子模块设计第21-23页
    2.3 基于Scrapy框架的内存优化第23-25页
        2.3.1 HASH函数个数的确定第24-25页
        2.3.2 布隆过滤器的实现第25页
    2.4 实验结果第25-28页
    2.5 本章小结第28-30页
第3章 基于解决微博数据异步加载问题的爬虫策略研究第30-42页
    3.1 微博爬虫策略第30-36页
        3.1.1 微博数据异步加载原理第30-31页
        3.1.2 微博爬虫策略设计第31-36页
    3.2 微博爬虫更新策略设计第36-39页
    3.3 实验第39-40页
    3.4 本章小结第40-42页
第4章 基于Scrapy框架的分布式爬虫系统的分析与设计第42-54页
    4.1 系统目标第42页
    4.2 系统架构分析与设计第42-46页
        4.2.1 整体框架设计第42-44页
        4.2.2 功能模块分析与设计第44-46页
    4.3 系统详细设计第46-52页
        4.3.1 调度器模块设计第46-48页
        4.3.2 登录模块设计第48页
        4.3.3 爬虫模块设计第48-49页
        4.3.4 流水线模块设计第49-50页
        4.3.5 数据库设计第50-52页
    4.4 本章小结第52-54页
第5章 基于Scrapy框架的分布式爬虫系统的实现与测试第54-70页
    5.1 开发平台与工具第54页
    5.2 调度器模块实现第54-56页
    5.3 微博登录模块实现第56-57页
    5.4 爬虫模块实现第57-62页
    5.5 流水线模块实现第62-63页
        5.5.1 MySQLdb模块第62-63页
        5.5.2 微博数据存储第63页
    5.6 防止爬虫被封实现第63-64页
        5.6.1 设置爬虫频率第63页
        5.6.2 模拟User-Agent第63-64页
    5.7 系统测试与结果分析第64-68页
        5.7.1 系统功能测试第64-66页
        5.7.2 系统运行测试第66-67页
        5.7.3 内存占用测试第67-68页
    5.8 本章小结第68-70页
结论第70-72页
参考文献第72-74页
攻读硕士学位期间所取得的成果第74-76页
致谢第76页

论文共76页,点击 下载论文
上一篇:基于O2O模式的电子商务系统的设计与实现
下一篇:基于J2EE的办公系统的设计与实现