内容汇聚子系统中可定制爬虫引擎的设计与实现
| 摘要 | 第4-5页 |
| ABSTRACT | 第5-6页 |
| 第一章 绪论 | 第10-16页 |
| 1.1 研究背景及意义 | 第10-11页 |
| 1.2 国内外研究现状 | 第11-13页 |
| 1.2.1 国内外爬虫技术研究现状 | 第11页 |
| 1.2.2 第三方爬虫引擎服务发展现状 | 第11-12页 |
| 1.2.3 通用规则引擎 | 第12-13页 |
| 1.2.4 小结 | 第13页 |
| 1.3 论文主要工作 | 第13-14页 |
| 1.3.1 可定制爬虫引擎框架设计 | 第13页 |
| 1.3.2 抓取规则定义与描述设计 | 第13-14页 |
| 1.3.3 抓取规则解析与执行 | 第14页 |
| 1.4 论文总体结构 | 第14-15页 |
| 1.5 本章小结 | 第15-16页 |
| 第二章 相关技术 | 第16-23页 |
| 2.1 爬虫开发相关技术 | 第16-20页 |
| 2.1.1 Scrapy | 第16页 |
| 2.1.2 HTTP协议 | 第16-17页 |
| 2.1.3 HTML和DOM概述 | 第17-18页 |
| 2.1.4 页面信息抽取技术 | 第18-19页 |
| 2.1.5 HTTP代理技术 | 第19-20页 |
| 2.2 数据存储与缓存技术 | 第20页 |
| 2.2.1 MongoDB | 第20页 |
| 2.2.2 Redis | 第20页 |
| 2.3 JSON语法 | 第20-21页 |
| 2.4 进程管理Supervisor | 第21页 |
| 2.5 Tornado框架 | 第21-22页 |
| 2.6 本章小结 | 第22-23页 |
| 第三章 需求分析 | 第23-30页 |
| 3.1 需求综述 | 第23-25页 |
| 3.2 可定制爬虫引擎执行框架的实现 | 第25页 |
| 3.3 规则分析 | 第25-28页 |
| 3.3.1 任务配置 | 第25-26页 |
| 3.3.2 前置操作 | 第26页 |
| 3.3.3 抽取规则 | 第26-27页 |
| 3.3.4 后置操作 | 第27-28页 |
| 3.3.5 设计规则的语法结构 | 第28页 |
| 3.4 规则解析与执行模块 | 第28-29页 |
| 3.5 本章小结 | 第29-30页 |
| 第四章 关键问题研究 | 第30-59页 |
| 4.1 技术背景 | 第30-31页 |
| 4.2 针对规则的可定制架构 | 第31-37页 |
| 4.2.1 现有爬虫方案的不足 | 第31-33页 |
| 4.2.2 可定制爬虫引擎 | 第33-37页 |
| 4.3 抓取规则设计与实现逻辑 | 第37-55页 |
| 4.3.1 任务配置 | 第37页 |
| 4.3.2 限定爬虫执行域 | 第37-39页 |
| 4.3.3 反反爬虫的规则 | 第39-43页 |
| 4.3.4 前置操作规则 | 第43-45页 |
| 4.3.5 URL匹配规则 | 第45-50页 |
| 4.3.6 内容抽取规则 | 第50-54页 |
| 4.3.7 后置操作规则 | 第54-55页 |
| 4.4 增量抓取的实现 | 第55-57页 |
| 4.4.1 常规方案 | 第55-56页 |
| 4.4.2 增量爬取方案设计 | 第56-57页 |
| 4.5 本章小结 | 第57-59页 |
| 第五章 设计与实现 | 第59-77页 |
| 5.1 可定制爬虫引擎框架设计与实现 | 第59-66页 |
| 5.1.1 爬虫节点管理设计与实现 | 第59-63页 |
| 5.1.2 爬虫节点与管理节点之间通信 | 第63-66页 |
| 5.2 规则解析与执行设计与实现 | 第66-74页 |
| 5.2.1 限定爬虫执行区域 | 第66-68页 |
| 5.2.2 反反爬虫设计与实现 | 第68-70页 |
| 5.2.3 前置操作设计与实现 | 第70-72页 |
| 5.2.4 抽取规则设计与实现 | 第72-74页 |
| 5.2.5 后置操作设计与实现 | 第74页 |
| 5.3 增量抓取中URL去重的设计与实现 | 第74-76页 |
| 5.4 本章小结 | 第76-77页 |
| 第六章 测试 | 第77-92页 |
| 6.1 测试环境 | 第77页 |
| 6.2 测试流程 | 第77-78页 |
| 6.3 测试某论坛数据抓取 | 第78-87页 |
| 6.3.1 抓取内容分析 | 第79-80页 |
| 6.3.2 前置操作测试 | 第80-82页 |
| 6.3.3 URL匹配与内容抽取规则测试 | 第82-87页 |
| 6.4 喜马拉雅FM数据抓取测试 | 第87-90页 |
| 6.5 本章小节 | 第90-92页 |
| 结束语 | 第92-93页 |
| 参考文献 | 第93-95页 |
| 附录 | 第95-96页 |
| 致谢 | 第96-97页 |
| 攻读硕士学位期间发表的学术论文目录 | 第97页 |
| 攻读硕士学位期间的主要工作 | 第97页 |