首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于Scrapy的分布式网络新闻抓取系统设计与实现

摘要第5-6页
ABSTRACT第6-7页
缩略语对照表第11-15页
第一章 绪论第15-19页
    1.1 课题背景与意义第15-16页
    1.2 主要研究内容与工作第16页
    1.3 论文的组织结构第16-17页
    1.4 本章小结第17-19页
第二章 网络爬虫及Scrapy框架第19-33页
    2.1 网络爬虫第19-24页
        2.1.1 网络爬虫的产生第19页
        2.1.2 网络爬虫的基本原理第19-24页
    2.2 Scrapy框架第24-27页
        2.2.1 Scrapy框架结构第24-26页
        2.2.2 Scrapy工作原理及流程第26-27页
    2.3 Scrapy-Redis原理第27-29页
        2.3.1 Redis简述第27-28页
        2.3.2 Scrapy-Redis的基本组成及原理第28-29页
    2.4 Graphite应用介绍第29-31页
    2.5 本章小结第31-33页
第三章 分布式网络新闻抓取系统的设计与实现第33-57页
    3.1 网络新闻爬虫的特点第33页
    3.2 分布式网络新闻抓取系统的设计第33-41页
        3.2.1 系统总体架构设计第34页
        3.2.2 爬取策略的设计第34-37页
        3.2.3 抓取字段设计第37-38页
        3.2.4 动态网页抓取方法的设计第38页
        3.2.5 爬虫的分布式设计第38-39页
        3.2.6 基于Graphite的系统监测组件第39-40页
        3.2.7 数据存储模块的设计第40-41页
    3.3 分布式网络新闻抓取系统的实现第41-47页
        3.3.1 爬虫的实现第41-43页
        3.3.2 爬虫防网站屏蔽组件的实现第43-44页
        3.3.3 动态网页数据的抓取第44-46页
        3.3.4 分布式爬虫的部署第46-47页
        3.3.5 基于Graphite的监测组件的实现第47页
    3.4 获取网络新闻评论数据第47-48页
    3.5 数据处理第48-53页
        3.5.1 数据处理的组成模块第48-49页
        3.5.2 数据清洗第49-52页
        3.5.3 数据分类第52页
        3.5.4 编码转换和对象添加第52-53页
    3.6 系统测试第53-56页
        3.6.1 测试环境第53-55页
        3.6.2 测试结果第55-56页
    3.7 本章小结第56-57页
第四章 数据分析实验第57-73页
    4.1 新闻数据分析实验第57-65页
        4.1.1 舆论热点第57-60页
        4.1.2 时间维度的新闻特征第60-62页
        4.1.3 用户浏览偏好第62-65页
    4.2 媒体数据分析实验第65-67页
    4.3 评论数据分析实验第67-72页
        4.3.1 评论观点分析第67-69页
        4.3.2 评论用户性别特征第69-70页
        4.3.3 评论用户地区特征第70-72页
    4.4 实验结论第72页
    4.5 本章小结第72-73页
第五章 总结与展望第73-75页
    5.1 全文总结第73页
    5.2 未来展望第73-75页
参考文献第75-77页
致谢第77-79页
作者简介第79-80页

论文共80页,点击 下载论文
上一篇:基于同伴教学法的中学物理概念教学设计研究--以“牛顿运动定律”为例
下一篇:高中受力分析综合探究性学习设计研究