摘要 | 第4-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第10-15页 |
1.1 引言 | 第10-11页 |
1.2 国内外研究现状 | 第11-13页 |
1.3 论文主要工作及研究成果 | 第13-14页 |
1.4 论文结构安排 | 第14-15页 |
第二章 短文本流数据过滤相关理论和技术 | 第15-32页 |
2.1 流处理框架 | 第15-23页 |
2.1.1 Hadoop框架体系 | 第15-18页 |
2.1.2 Puma流处理系统 | 第18-20页 |
2.1.3 Storm流处理系统 | 第20-22页 |
2.1.4 S4流处理系统 | 第22页 |
2.1.5 Spark Streaming | 第22-23页 |
2.2 框架共用技术总结详述 | 第23-30页 |
2.2.1 集群管理与一致性控制技术 | 第23-24页 |
2.2.2 消息中间件 | 第24-26页 |
2.2.3 数据交换的格式 | 第26-30页 |
2.3 流处理的存储系统 | 第30页 |
2.4 短文本流数据过滤常见问题技术详述 | 第30-32页 |
第三章 短文本流数据过滤系统 | 第32-46页 |
3.1 系统总体架构设计 | 第33-34页 |
3.2 系统细分架构设计 | 第34-38页 |
3.2.1 设计数据共享机制 | 第34-35页 |
3.2.2 设计系统存储方式 | 第35页 |
3.2.3 过滤数据信息可视化展示 | 第35-36页 |
3.2.4 设计负载均衡 | 第36-37页 |
3.2.5 设计并行处理 | 第37页 |
3.2.6 设计数据冗余与数据安全 | 第37页 |
3.2.7 设计系统自我监控机制 | 第37-38页 |
3.3 系统功能概述 | 第38-41页 |
3.3.1 系统总体功能 | 第38-40页 |
3.3.2 后台功能详述 | 第40-41页 |
3.4 系统模块设计说明 | 第41-43页 |
3.5 系统数据库表设计 | 第43-46页 |
3.5.1 SPAM_KEYWORDS表设计 | 第43-44页 |
3.5.2 SPAM_HIGH表设计 | 第44页 |
3.5.3 SPAM LOW表设计 | 第44页 |
3.5.4 FILTRATE_CONFIG表设计 | 第44-45页 |
3.5.5 CLUSTERING_CONFIG表设计 | 第45-46页 |
第四章 针对文本流的字符串逻辑表达式匹配算法 | 第46-54页 |
4.1 问题分析 | 第46-48页 |
4.2 算法介绍 | 第48-52页 |
4.2.1 生成布尔树 | 第48-50页 |
4.2.2 改进的Wu Manber预处理 | 第50-51页 |
4.2.3 匹配过程 | 第51-52页 |
4.3 复杂度分析 | 第52-54页 |
4.3.1 空间复杂度 | 第52页 |
4.3.2 时间复杂度 | 第52-54页 |
第五章 任意时间粒度数据特征分析算法框架 | 第54-61页 |
5.1 问题分析 | 第54-55页 |
5.2 算法介绍 | 第55-60页 |
5.2.1 Router模块 | 第56-57页 |
5.2.2 Worker算子模块 | 第57-60页 |
5.2.3 Storage模块 | 第60页 |
5.3 本章小结 | 第60-61页 |
第六章 实验及性能测试 | 第61-68页 |
6.1 实例系统整体性能 | 第61-64页 |
6.2 MSLE算法性能 | 第64-65页 |
6.3 任意时间粒度数据特征分析算法框架性能 | 第65-68页 |
第七章 论文总结与展望 | 第68-70页 |
7.1 论文总结 | 第68页 |
7.2 展望 | 第68-70页 |
参考文献 | 第70-73页 |
致谢 | 第73-74页 |
攻读硕士学位期间发表论文 | 第74页 |