基于Scrapy的分布式网络新闻抓取系统设计与实现

摘要	第5-6页
ABSTRACT	第6-7页
缩略语对照表	第11-15页
第一章绪论	第15-19页
1.1 课题背景与意义	第15-16页
1.2 主要研究内容与工作	第16页
1.3 论文的组织结构	第16-17页
1.4 本章小结	第17-19页
第二章网络爬虫及Scrapy框架	第19-33页
2.1 网络爬虫	第19-24页
2.1.1 网络爬虫的产生	第19页
2.1.2 网络爬虫的基本原理	第19-24页
2.2 Scrapy框架	第24-27页
2.2.1 Scrapy框架结构	第24-26页
2.2.2 Scrapy工作原理及流程	第26-27页
2.3 Scrapy-Redis原理	第27-29页
2.3.1 Redis简述	第27-28页
2.3.2 Scrapy-Redis的基本组成及原理	第28-29页
2.4 Graphite应用介绍	第29-31页
2.5 本章小结	第31-33页
第三章分布式网络新闻抓取系统的设计与实现	第33-57页
3.1 网络新闻爬虫的特点	第33页
3.2 分布式网络新闻抓取系统的设计	第33-41页
3.2.1 系统总体架构设计	第34页
3.2.2 爬取策略的设计	第34-37页
3.2.3 抓取字段设计	第37-38页
3.2.4 动态网页抓取方法的设计	第38页
3.2.5 爬虫的分布式设计	第38-39页
3.2.6 基于Graphite的系统监测组件	第39-40页
3.2.7 数据存储模块的设计	第40-41页
3.3 分布式网络新闻抓取系统的实现	第41-47页
3.3.1 爬虫的实现	第41-43页
3.3.2 爬虫防网站屏蔽组件的实现	第43-44页
3.3.3 动态网页数据的抓取	第44-46页
3.3.4 分布式爬虫的部署	第46-47页
3.3.5 基于Graphite的监测组件的实现	第47页
3.4 获取网络新闻评论数据	第47-48页
3.5 数据处理	第48-53页
3.5.1 数据处理的组成模块	第48-49页
3.5.2 数据清洗	第49-52页
3.5.3 数据分类	第52页
3.5.4 编码转换和对象添加	第52-53页
3.6 系统测试	第53-56页
3.6.1 测试环境	第53-55页
3.6.2 测试结果	第55-56页
3.7 本章小结	第56-57页
第四章数据分析实验	第57-73页
4.1 新闻数据分析实验	第57-65页
4.1.1 舆论热点	第57-60页
4.1.2 时间维度的新闻特征	第60-62页
4.1.3 用户浏览偏好	第62-65页
4.2 媒体数据分析实验	第65-67页
4.3 评论数据分析实验	第67-72页
4.3.1 评论观点分析	第67-69页
4.3.2 评论用户性别特征	第69-70页
4.3.3 评论用户地区特征	第70-72页
4.4 实验结论	第72页
4.5 本章小结	第72-73页
第五章总结与展望	第73-75页
5.1 全文总结	第73页
5.2 未来展望	第73-75页
参考文献	第75-77页
致谢	第77-79页
作者简介	第79-80页