分布式微信公众平台爬虫系统的研究与应用

摘要	第4-6页
Abstract	第6-7页
第1章绪论	第12-18页
1.1 研究背景与意义	第12-13页
1.2 国内外研究现状	第13-15页
1.3 主要研究内容	第15页
1.4 论文的组织结构	第15-18页
第2章相关技术介绍	第18-24页
2.1 网络爬虫概述	第18-20页
2.1.1 网络爬虫的概念与原理	第18-19页
2.1.2 网络爬虫分类	第19-20页
2.2 Redis数据库	第20-21页
2.3 FastDFS分布式文件系统	第21-24页
第3章分布式网络爬虫研究及DWPPWCS系统的设计	第24-50页
3.1 设计目标	第24-25页
3.2 Scrapy框架的研究	第25-29页
3.2.1 Scrapy的架构	第25-27页
3.2.2 Scrapy的缺陷	第27-28页
3.2.3 Scrapy的扩展	第28-29页
3.3 DWPPWCS系统的架构	第29-32页
3.3.1 分布式网络爬虫架构	第29-30页
3.3.2 DWPPWCS系统架构	第30-32页
3.4 爬虫模块的设计	第32-38页
3.4.1 爬取策略分析	第32-34页
3.4.2 爬取流程设计	第34-38页
3.5 调度器模块的设计	第38-40页
3.5.1 优先级队列的设计	第39-40页
3.5.2 请求指纹过滤器的设计	第40页
3.6 流水线模块设计	第40-41页
3.6.1 流水线工作原理	第40-41页
3.6.2 流水线模块设计	第41页
3.7 数据存储设计	第41-45页
3.7.1 数据库设计	第42-45页
3.8 文件存储设计	第45-47页
3.8.1 文件上传	第46-47页
3.8.2 文件下载	第47页
3.9 增量式爬虫设计	第47-50页
第4章 DWPPWCS系统的实现与运行评测	第50-66页
4.1 开发平台与工具	第50页
4.2 爬虫模块的实现	第50-53页
4.2.1 XPath技术	第50-51页
4.2.2 爬虫类的实现	第51-53页
4.3 调度器模块的实现	第53-55页
4.3.1 redis-py模块	第53页
4.3.2 优先级队列的实现	第53-54页
4.3.3 请求指纹过滤器的实现	第54-55页
4.3.4 调度器的实现	第55页
4.4 数据存储实现	第55-57页
4.4.1 torndb模块	第55-56页
4.4.2 公众号信息存储	第56-57页
4.4.3 文章信息存储	第57页
4.5 文件存储实现	第57-60页
4.5.1 分布式FastDFS集群搭建	第57-58页
4.5.2 fdfs_client-py模块	第58页
4.5.3 文件上传实现	第58-59页
4.5.4 文件下载实现	第59-60页
4.6 增量式爬虫的实现	第60-61页
4.7 防止爬虫被禁策略	第61-62页
4.7.1 控制爬取频率	第61页
4.7.2 模拟User-Agent	第61-62页
4.8 系统部署与运行评测	第62-66页
4.8.1 部署环境	第62-63页
4.8.2 系统运行评测	第63-66页
第5章 DWPPWCS系统的应用	第66-72页
5.1 应用场景概述	第66页
5.2 总体设计	第66-67页
5.3 服务端设计	第67-69页
5.3.1 账号注册和登陆	第67页
5.3.2 微信公众号账号验证	第67-68页
5.3.3 客户端信息登记	第68页
5.3.4 数据交互接.设计	第68-69页
5.4 客户端设计	第69-72页
5.4.1 数据库表设计	第69-70页
5.4.2 数据接收处理接	第70-72页
第6章总结与工作展望	第72-74页
6.1 总结	第72页
6.2 工作展望	第72-74页
参考文献	第74-78页
攻读硕士学位期间发表的论文及科研成果	第78-79页
致谢	第79页