首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

分布式微信公众平台爬虫系统的研究与应用

摘要第4-6页
Abstract第6-7页
第1章 绪论第12-18页
    1.1 研究背景与意义第12-13页
    1.2 国内外研究现状第13-15页
    1.3 主要研究内容第15页
    1.4 论文的组织结构第15-18页
第2章 相关技术介绍第18-24页
    2.1 网络爬虫概述第18-20页
        2.1.1 网络爬虫的概念与原理第18-19页
        2.1.2 网络爬虫分类第19-20页
    2.2 Redis数据库第20-21页
    2.3 FastDFS分布式文件系统第21-24页
第3章 分布式网络爬虫研究及DWPPWCS系统的设计第24-50页
    3.1 设计目标第24-25页
    3.2 Scrapy框架的研究第25-29页
        3.2.1 Scrapy的架构第25-27页
        3.2.2 Scrapy的缺陷第27-28页
        3.2.3 Scrapy的扩展第28-29页
    3.3 DWPPWCS系统的架构第29-32页
        3.3.1 分布式网络爬虫架构第29-30页
        3.3.2 DWPPWCS系统架构第30-32页
    3.4 爬虫模块的设计第32-38页
        3.4.1 爬取策略分析第32-34页
        3.4.2 爬取流程设计第34-38页
    3.5 调度器模块的设计第38-40页
        3.5.1 优先级队列的设计第39-40页
        3.5.2 请求指纹过滤器的设计第40页
    3.6 流水线模块设计第40-41页
        3.6.1 流水线工作原理第40-41页
        3.6.2 流水线模块设计第41页
    3.7 数据存储设计第41-45页
        3.7.1 数据库设计第42-45页
    3.8 文件存储设计第45-47页
        3.8.1 文件上传第46-47页
        3.8.2 文件下载第47页
    3.9 增量式爬虫设计第47-50页
第4章 DWPPWCS系统的实现与运行评测第50-66页
    4.1 开发平台与工具第50页
    4.2 爬虫模块的实现第50-53页
        4.2.1 XPath技术第50-51页
        4.2.2 爬虫类的实现第51-53页
    4.3 调度器模块的实现第53-55页
        4.3.1 redis-py模块第53页
        4.3.2 优先级队列的实现第53-54页
        4.3.3 请求指纹过滤器的实现第54-55页
        4.3.4 调度器的实现第55页
    4.4 数据存储实现第55-57页
        4.4.1 torndb模块第55-56页
        4.4.2 公众号信息存储第56-57页
        4.4.3 文章信息存储第57页
    4.5 文件存储实现第57-60页
        4.5.1 分布式FastDFS集群搭建第57-58页
        4.5.2 fdfs_client-py模块第58页
        4.5.3 文件上传实现第58-59页
        4.5.4 文件下载实现第59-60页
    4.6 增量式爬虫的实现第60-61页
    4.7 防止爬虫被禁策略第61-62页
        4.7.1 控制爬取频率第61页
        4.7.2 模拟User-Agent第61-62页
    4.8 系统部署与运行评测第62-66页
        4.8.1 部署环境第62-63页
        4.8.2 系统运行评测第63-66页
第5章 DWPPWCS系统的应用第66-72页
    5.1 应用场景概述第66页
    5.2 总体设计第66-67页
    5.3 服务端设计第67-69页
        5.3.1 账号注册和登陆第67页
        5.3.2 微信公众号账号验证第67-68页
        5.3.3 客户端信息登记第68页
        5.3.4 数据交互接.设计第68-69页
    5.4 客户端设计第69-72页
        5.4.1 数据库表设计第69-70页
        5.4.2 数据接收处理接第70-72页
第6章 总结与工作展望第72-74页
    6.1 总结第72页
    6.2 工作展望第72-74页
参考文献第74-78页
攻读硕士学位期间发表的论文及科研成果第78-79页
致谢第79页

论文共79页,点击 下载论文
上一篇:核电设计软件编码规范研究与应用
下一篇:微博关键用户和用户社区网络挖掘研究