基于网络爬虫的CMS识别系统的研究与应用

摘要	第4-6页
Abstract	第6-7页
第1章绪论	第11-17页
1.1 选题依据与选题意义	第11-12页
1.2 国内外研究现状	第12-14页
1.2.1 内容管理系统研究现状	第12-13页
1.2.2 网络爬虫研究现状	第13-14页
1.3 论文主要研究内容	第14-15页
1.4 论文的组织结构	第15-17页
第2章相关技术介绍	第17-31页
2.1 网络爬虫	第17-21页
2.1.1 通用爬虫框架流程研究	第17-18页
2.1.2 礼貌采集过程	第18页
2.1.3 爬虫采集策略	第18-21页
2.2 URL去重技术	第21-25页
2.2.1 基于数据库的顺序存储	第22页
2.2.2 基于MD5压缩算法的Hash存储	第22-23页
2.2.3 基于Bloom-Filter算法的Hash存储	第23-25页
2.3 协程与go语言并发编程	第25-27页
2.4 Redis高性能缓存技术	第27-30页
2.4.1 Redis概述	第27页
2.4.2 Redis数据存储类型	第27-30页
2.5 本章小结	第30-31页
第3章 CMS识别系统设计	第31-35页
3.1 可行性分析	第31页
3.2 需求分析	第31-33页
3.3 系统总体框架设计	第33-34页
3.4 本章小结	第34-35页
第4章 CMS识别系统爬虫客户端设计	第35-52页
4.1 CMS系统识别方法设计	第35-38页
4.1.1 识别CMS系统方法设计	第35-37页
4.1.2 CMS指纹识别信息库	第37-38页
4.2 知名的爬虫框架及软件	第38页
4.3 go_spider爬虫框架	第38-41页
4.3.1 go_spider框架的架构	第38-40页
4.3.2 go_spider的功能不足与扩展分析	第40-41页
4.4 Go_SpiderForCMS系统的设计	第41-44页
4.4.1 分布式网络爬虫架构	第41-42页
4.4.2 Go_SpiderForCMS系统设计	第42-44页
4.5 数据采集设计	第44-48页
4.5.1 数据采集分析	第44页
4.5.2 数据采集模块设计	第44-48页
4.6 爬虫策略辅助模块设计	第48-50页
4.6.1 爬虫和反爬虫分析	第48页
4.6.2 反爬虫相关技术	第48-49页
4.6.3 爬虫破禁策略设计	第49-50页
4.7 数据存储设计	第50-51页
4.7.1 redis分布式任务队列设计	第50页
4.7.2 redis缓存数据存储设计	第50-51页
4.7.3 MySQL数据库设计	第51页
4.8 本章小结	第51-52页
第5章 CMS识别系统爬虫客户端实现	第52-68页
5.1 开发平台与工具	第52页
5.2 调度器模块的实现	第52-55页
5.2.1 种子站点设置	第53页
5.2.2 任务队列调度实现	第53-55页
5.3 中间件处理器模块实现	第55-56页
5.3.1 模拟User-Agent	第55页
5.3.2 设置代理服务器	第55-56页
5.4 数据下载器实现	第56-57页
5.5 解析器模块的实现	第57-62页
5.5.1 域名去重实现	第57-59页
5.5.2 CMS指纹识别实现	第59-60页
5.5.3 提取网站排名数据	第60-61页
5.5.4 提取网站类型数据	第61-62页
5.6 数据存储模块实现	第62-64页
5.6.1 redis的hash表存储	第62-63页
5.6.2 MySQL持久化数据	第63-64页
5.7 爬虫系统部署与运行评测	第64-67页
5.7.1 系统部署运行环境	第64-65页
5.7.2 系统运行评测	第65-67页
5.8 本章小结	第67-68页
第6章 CMS识别系统web服务端开发与应用	第68-77页
6.1 CMS识别与统计分析现状	第68-70页
6.2 CMS识别系统web服务端开发	第70-76页
6.2.1 功能设计	第70页
6.2.2 开发环境	第70-71页
6.2.3 CMS识别功能的实现	第71-72页
6.2.4 CMS市场份额统计分析实现	第72-73页
6.2.5 同一种CMS类型的网站查询功能实现	第73-74页
6.2.6 同一种网站类型的CMS查询功能	第74-76页
6.3 本章小结	第76-77页
总结与工作展望	第77-79页
致谢	第79-80页
参考文献	第80-83页
攻读学位期间取得学术成果	第83页