首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于网络爬虫的CMS识别系统的研究与应用

摘要第4-6页
Abstract第6-7页
第1章 绪论第11-17页
    1.1 选题依据与选题意义第11-12页
    1.2 国内外研究现状第12-14页
        1.2.1 内容管理系统研究现状第12-13页
        1.2.2 网络爬虫研究现状第13-14页
    1.3 论文主要研究内容第14-15页
    1.4 论文的组织结构第15-17页
第2章 相关技术介绍第17-31页
    2.1 网络爬虫第17-21页
        2.1.1 通用爬虫框架流程研究第17-18页
        2.1.2 礼貌采集过程第18页
        2.1.3 爬虫采集策略第18-21页
    2.2 URL去重技术第21-25页
        2.2.1 基于数据库的顺序存储第22页
        2.2.2 基于MD5压缩算法的Hash存储第22-23页
        2.2.3 基于Bloom-Filter算法的Hash存储第23-25页
    2.3 协程与go语言并发编程第25-27页
    2.4 Redis高性能缓存技术第27-30页
        2.4.1 Redis概述第27页
        2.4.2 Redis数据存储类型第27-30页
    2.5 本章小结第30-31页
第3章 CMS识别系统设计第31-35页
    3.1 可行性分析第31页
    3.2 需求分析第31-33页
    3.3 系统总体框架设计第33-34页
    3.4 本章小结第34-35页
第4章 CMS识别系统爬虫客户端设计第35-52页
    4.1 CMS系统识别方法设计第35-38页
        4.1.1 识别CMS系统方法设计第35-37页
        4.1.2 CMS指纹识别信息库第37-38页
    4.2 知名的爬虫框架及软件第38页
    4.3 go_spider爬虫框架第38-41页
        4.3.1 go_spider框架的架构第38-40页
        4.3.2 go_spider的功能不足与扩展分析第40-41页
    4.4 Go_SpiderForCMS系统的设计第41-44页
        4.4.1 分布式网络爬虫架构第41-42页
        4.4.2 Go_SpiderForCMS系统设计第42-44页
    4.5 数据采集设计第44-48页
        4.5.1 数据采集分析第44页
        4.5.2 数据采集模块设计第44-48页
    4.6 爬虫策略辅助模块设计第48-50页
        4.6.1 爬虫和反爬虫分析第48页
        4.6.2 反爬虫相关技术第48-49页
        4.6.3 爬虫破禁策略设计第49-50页
    4.7 数据存储设计第50-51页
        4.7.1 redis分布式任务队列设计第50页
        4.7.2 redis缓存数据存储设计第50-51页
        4.7.3 MySQL数据库设计第51页
    4.8 本章小结第51-52页
第5章 CMS识别系统爬虫客户端实现第52-68页
    5.1 开发平台与工具第52页
    5.2 调度器模块的实现第52-55页
        5.2.1 种子站点设置第53页
        5.2.2 任务队列调度实现第53-55页
    5.3 中间件处理器模块实现第55-56页
        5.3.1 模拟User-Agent第55页
        5.3.2 设置代理服务器第55-56页
    5.4 数据下载器实现第56-57页
    5.5 解析器模块的实现第57-62页
        5.5.1 域名去重实现第57-59页
        5.5.2 CMS指纹识别实现第59-60页
        5.5.3 提取网站排名数据第60-61页
        5.5.4 提取网站类型数据第61-62页
    5.6 数据存储模块实现第62-64页
        5.6.1 redis的hash表存储第62-63页
        5.6.2 MySQL持久化数据第63-64页
    5.7 爬虫系统部署与运行评测第64-67页
        5.7.1 系统部署运行环境第64-65页
        5.7.2 系统运行评测第65-67页
    5.8 本章小结第67-68页
第6章 CMS识别系统web服务端开发与应用第68-77页
    6.1 CMS识别与统计分析现状第68-70页
    6.2 CMS识别系统web服务端开发第70-76页
        6.2.1 功能设计第70页
        6.2.2 开发环境第70-71页
        6.2.3 CMS识别功能的实现第71-72页
        6.2.4 CMS市场份额统计分析实现第72-73页
        6.2.5 同一种CMS类型的网站查询功能实现第73-74页
        6.2.6 同一种网站类型的CMS查询功能第74-76页
    6.3 本章小结第76-77页
总结与工作展望第77-79页
致谢第79-80页
参考文献第80-83页
攻读学位期间取得学术成果第83页

论文共83页,点击 下载论文
上一篇:北川龙门山区泥盆系土桥子组灰岩—泥灰岩韵律层成因机制研究
下一篇:基于大数据平台的电信用户行为日志分析研究