面向建材信息的网络爬虫系统的设计与实现

致谢	第5-6页
摘要	第6-7页
ABSTRACT	第7页
1 绪论	第11-15页
1.1 论文背景和意义	第11页
1.2 国内外发展现状	第11-14页
1.3 论文主要工作与结构安排	第14页
1.4 本章小结	第14-15页
2 相关技术概述	第15-20页
2.1 正则表达式	第15页
2.2 布隆算法	第15-16页
2.3 RHINO解析引擎	第16-17页
2.4 TESSERACT图片识别引擎	第17-18页
2.5 MVC设计模式	第18页
2.6 MONGO数据库	第18-19页
2.7 本章小结	第19-20页
3 需求分析	第20-25页
3.1 系统业务总体分析	第20页
3.2 系统功能性需求	第20-21页
3.3 系统非功能性需求	第21-22页
3.4 技术可行性分析	第22-24页
3.4.1 页面抓取分析	第22-23页
3.4.2 页面解析分析	第23页
3.4.3 数据库存储分析	第23-24页
3.5 本章小结	第24-25页
4 系统概要设计	第25-35页
4.1 爬虫系统开发环境	第25页
4.2 系统基本框架	第25-27页
4.3 网页抓取模块	第27-31页
4.3.1 网络爬虫抓取策略	第28-29页
4.3.2 URL去重	第29-31页
4.4 页面解析模块	第31-32页
4.5 MONGO数据库模块	第32页
4.6 代理IP管理模块	第32-33页
4.7 爬虫管理系统模块	第33-34页
4.8 本章小结	第34-35页
5 系统详细设计及实现	第35-65页
5.1 网页抓取模块	第35-44页
5.1.1 Robots协议解析	第35-36页
5.1.2 HTTP协议分析	第36页
5.1.3 HTTP文件抓取	第36-37页
5.1.4 HTTP响应信息处理方法	第37-38页
5.1.5 URL去重	第38-40页
5.1.6 初始URL文件配置	第40页
5.1.7 线程池工作模块	第40-42页
5.1.8 翻页URL	第42页
5.1.9 页面的更新策略	第42-43页
5.1.10 爬虫抓取频率	第43页
5.1.11 DNS解析缓存	第43-44页
5.2 网页解析模块	第44-51页
5.2.1 静态页面解析	第44-47页
5.2.2 图片内容解析	第47-48页
5.2.3 JS动态页面解析	第48-51页
5.3 应对反爬虫策略	第51-55页
5.3.1 基于User-Agent的反爬虫	第51-53页
5.3.2 基于登录的反爬虫	第53-54页
5.3.3 基于Cookie的反爬虫	第54-55页
5.4 MONGO数据库模块	第55-58页
5.4.1 Mongo数据库存入	第55-57页
5.4.2 Mongo数据库备份与恢复	第57-58页
5.5 代理IP管理模块	第58-61页
5.5.1 请求的处理	第59页
5.5.2 响应的处理	第59-60页
5.5.3 基于线程池	第60-61页
5.6 爬虫管理系统模块	第61-64页
5.6.1 爬虫管理系统界面	第61页
5.6.2 爬虫管理系统功能	第61-62页
5.6.3 数据库表设计	第62-64页
5.6.4 Controller类	第64页
5.7 本章小结	第64-65页
6 系统测试	第65-69页
6.1 单元测试	第65页
6.2 系统测试	第65-68页
6.3 本章小结	第68-69页
7 总结与展望	第69-71页
7.1 总结	第69页
7.2 展望	第69-71页
参考文献	第71-73页
作者简历	第73-75页
学位论文数据集	第75页