首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

内容汇聚子系统中可定制爬虫引擎的设计与实现

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第10-16页
    1.1 研究背景及意义第10-11页
    1.2 国内外研究现状第11-13页
        1.2.1 国内外爬虫技术研究现状第11页
        1.2.2 第三方爬虫引擎服务发展现状第11-12页
        1.2.3 通用规则引擎第12-13页
        1.2.4 小结第13页
    1.3 论文主要工作第13-14页
        1.3.1 可定制爬虫引擎框架设计第13页
        1.3.2 抓取规则定义与描述设计第13-14页
        1.3.3 抓取规则解析与执行第14页
    1.4 论文总体结构第14-15页
    1.5 本章小结第15-16页
第二章 相关技术第16-23页
    2.1 爬虫开发相关技术第16-20页
        2.1.1 Scrapy第16页
        2.1.2 HTTP协议第16-17页
        2.1.3 HTML和DOM概述第17-18页
        2.1.4 页面信息抽取技术第18-19页
        2.1.5 HTTP代理技术第19-20页
    2.2 数据存储与缓存技术第20页
        2.2.1 MongoDB第20页
        2.2.2 Redis第20页
    2.3 JSON语法第20-21页
    2.4 进程管理Supervisor第21页
    2.5 Tornado框架第21-22页
    2.6 本章小结第22-23页
第三章 需求分析第23-30页
    3.1 需求综述第23-25页
    3.2 可定制爬虫引擎执行框架的实现第25页
    3.3 规则分析第25-28页
        3.3.1 任务配置第25-26页
        3.3.2 前置操作第26页
        3.3.3 抽取规则第26-27页
        3.3.4 后置操作第27-28页
        3.3.5 设计规则的语法结构第28页
    3.4 规则解析与执行模块第28-29页
    3.5 本章小结第29-30页
第四章 关键问题研究第30-59页
    4.1 技术背景第30-31页
    4.2 针对规则的可定制架构第31-37页
        4.2.1 现有爬虫方案的不足第31-33页
        4.2.2 可定制爬虫引擎第33-37页
    4.3 抓取规则设计与实现逻辑第37-55页
        4.3.1 任务配置第37页
        4.3.2 限定爬虫执行域第37-39页
        4.3.3 反反爬虫的规则第39-43页
        4.3.4 前置操作规则第43-45页
        4.3.5 URL匹配规则第45-50页
        4.3.6 内容抽取规则第50-54页
        4.3.7 后置操作规则第54-55页
    4.4 增量抓取的实现第55-57页
        4.4.1 常规方案第55-56页
        4.4.2 增量爬取方案设计第56-57页
    4.5 本章小结第57-59页
第五章 设计与实现第59-77页
    5.1 可定制爬虫引擎框架设计与实现第59-66页
        5.1.1 爬虫节点管理设计与实现第59-63页
        5.1.2 爬虫节点与管理节点之间通信第63-66页
    5.2 规则解析与执行设计与实现第66-74页
        5.2.1 限定爬虫执行区域第66-68页
        5.2.2 反反爬虫设计与实现第68-70页
        5.2.3 前置操作设计与实现第70-72页
        5.2.4 抽取规则设计与实现第72-74页
        5.2.5 后置操作设计与实现第74页
    5.3 增量抓取中URL去重的设计与实现第74-76页
    5.4 本章小结第76-77页
第六章 测试第77-92页
    6.1 测试环境第77页
    6.2 测试流程第77-78页
    6.3 测试某论坛数据抓取第78-87页
        6.3.1 抓取内容分析第79-80页
        6.3.2 前置操作测试第80-82页
        6.3.3 URL匹配与内容抽取规则测试第82-87页
    6.4 喜马拉雅FM数据抓取测试第87-90页
    6.5 本章小节第90-92页
结束语第92-93页
参考文献第93-95页
附录第95-96页
致谢第96-97页
攻读硕士学位期间发表的学术论文目录第97页
攻读硕士学位期间的主要工作第97页

论文共97页,点击 下载论文
上一篇:网关类软件开发项目敏捷需求分析及管理研究
下一篇:软件开发项目需求管理研究