基于Scrapy框架的网络爬虫实现与数据抓取分析

摘要	第4-5页
Abstract	第5页
第1章绪论	第9-13页
1.1 研究背景	第9页
1.2 国内外爬虫技术概况	第9-11页
1.2.1 爬虫技术概述及发展历史	第9-10页
1.2.2 爬虫技术现状和爬虫设计者面临的问题	第10-11页
1.3 研究意义	第11页
1.4 研究目标	第11页
1.5 研究中遇到的关键问题	第11页
1.6 文章的整体结构	第11-13页
第2章网络爬虫的工作原理及相关技术介绍	第13-23页
2.1 工作原理	第13-17页
2.1.1 工作原理	第13页
2.1.2 工作流程及数据抓取过程分析	第13-17页
2.2 常见的抓取策略	第17-20页
2.2.1 BFS及DFS策略	第17-19页
2.2.2 聚焦爬虫的特定搜索策略	第19-20页
2.3 Cookie的介绍和作用	第20-21页
2.3.1 什么是Cookie	第20-21页
2.3.2 Cookie的缺陷	第21页
2.3.3 Cookie在本研究中的作用	第21页
2.4 Robot协议在爬虫设计中的影响	第21-23页
2.4.1 Robot协议详解	第21-22页
2.4.2 Robot.txt应用示例	第22页
2.4.3 Robot协议的缺点及影响	第22-23页
第3章 Scrapy开源框架在爬虫开发中的应用	第23-27页
3.1 Scrapy分析与使用	第23-25页
3.1.1 Scrapy简明介绍	第23-25页
3.1.2 Scrapy爬虫的运行过程	第25页
3.2 数据的存取	第25-27页
3.2.1 NoSQL数据库简介	第25-26页
3.2.2 MongoDB数据库简介	第26-27页
第4章基于Scrapy框架的爬虫具体实现	第27-37页
4.1 爬虫总体设计介绍	第27-28页
4.1.1 爬取对象简介	第27页
4.1.2 总体架构设计	第27-28页
4.2 爬虫实现细节	第28-33页
4.2.1 前置规则预设模块	第28-29页
4.2.2 网页抓取模块	第29-32页
4.2.3 后置数据处理模块	第32-33页
4.3 关键问题处理	第33-37页
4.3.1 网页登录与访问限制	第34-37页
第5章爬虫测试与成果展示	第37-41页
5.1 测试环境	第37页
5.2 运行状态及测试	第37-38页
5.3 数据抓取结果展示与分析	第38-39页
5.4 其他应用成果展示	第39-41页
第6章总结和展望	第41-42页
致谢	第42-43页
参考文献	第43-44页