摘要 | 第6-7页 |
ABSTRACT | 第7页 |
第一章 绪论 | 第8-12页 |
1.1. 研究的背景和意义 | 第8-9页 |
1.2. 国内外垃圾短信治理研究现状研究现状 | 第9-10页 |
1.2.1. 已部署的群发垃圾短信探测分析解决方案 | 第9页 |
1.2.2. 基于内容/关键词过滤的局限性 | 第9-10页 |
1.2.3. 基于非内容的过滤判别系统的不稳定性 | 第10页 |
1.3. 主要工作 | 第10-11页 |
1.4. 论文结构 | 第11-12页 |
第二章 系统架构及数据采集相关技术分析 | 第12-36页 |
2.1. 业务仿真和全网络信令跟踪系统架构 | 第12-16页 |
2.1.1. 上海电信短信类业务介绍 | 第12-15页 |
2.1.2. 上海电信业务仿真和全网络信令跟踪系统立项背景、依据及必要性 | 第15-16页 |
2.2. 项目初步技术方案 | 第16-20页 |
2.2.1. 系统内部实现架构 | 第18-19页 |
2.2.2. 短信/彩信的信令采集和跟踪实现难点分析 | 第19-20页 |
2.3. 功能模块说明 | 第20-24页 |
2.3.1. 数据采集/合成功能 | 第20-21页 |
2.3.2. 数据存储功能 | 第21-22页 |
2.3.3. 应用分析功能 | 第22-23页 |
2.3.4. 管理门户展现 | 第23页 |
2.3.5. 系统用户管理 | 第23页 |
2.3.6. 系统日志管理 | 第23-24页 |
2.4. 组网改造和存储优化 | 第24-35页 |
2.4.1. 组网改造 | 第24-28页 |
2.4.2. 存储优化与变迁 | 第28-32页 |
2.4.3. 改造实施后的系统架构 | 第32-35页 |
2.5. 本章小结 | 第35-36页 |
第三章 两大类特征的选择与提取 | 第36-48页 |
3.1. 系统输入 | 第36页 |
3.2. 非内容特征选取 | 第36-42页 |
3.2.1. CDR合成 | 第37-38页 |
3.2.2. 统计类判别器阈值设定 | 第38-39页 |
3.2.3. 非内容判别的其他算法实现 | 第39-41页 |
3.2.4. 评估依据 | 第41-42页 |
3.3. 文本内容特征 | 第42-46页 |
3.3.1. 结合文本特征判断的依据 | 第42页 |
3.3.2. 短信文本预处理 | 第42-45页 |
3.3.3. 过滤关键词的选择 | 第45页 |
3.3.4. Bloom Fliters的原理及实现 | 第45-46页 |
3.4. 本章小结 | 第46-48页 |
第四章 分析过滤模块的设计 | 第48-54页 |
4.1. 选取Hadoop系统的依据 | 第48页 |
4.1.1. 利用存储和数据处理上的特性 | 第48页 |
4.1.2. 适用场景 | 第48页 |
4.2. 对比分析 | 第48-49页 |
4.3. M-R处理方案分析 | 第49-52页 |
4.3.1. M-R和Streming处理方式对比 | 第49-50页 |
4.3.2. 两种方式实现M-R逻辑的比较 | 第50-51页 |
4.3.3. M-R处理流程设计 | 第51-52页 |
4.4. Boosting的原理及算法 | 第52-53页 |
4.5. 本章小节 | 第53-54页 |
第五章 Hadoop框架配置及实验测试 | 第54-63页 |
5.1. 测试环境 | 第54-55页 |
5.1.1. 实验环境硬件/虚拟机配置 | 第54页 |
5.1.2. Hadoop运行环境操作系统配置 | 第54页 |
5.1.3. 测试数据选取 | 第54-55页 |
5.2. Hadoop框架的配置 | 第55-58页 |
5.2.1. 基本参数配置 | 第55-56页 |
5.2.2. 测试环境设定 | 第56页 |
5.2.3. 实际的部署要求 | 第56页 |
5.2.4. Hadoop进程启动顺序 | 第56-57页 |
5.2.5. Hadoop任务调度 | 第57-58页 |
5.3. 弱分类器(特征集)选择 | 第58页 |
5.3.1. 最终选取的特征项 | 第58页 |
5.3.2. 阈值选择 | 第58页 |
5.4. AdaBoost的实现与训练 | 第58-60页 |
5.4.1. 训练集合的选取与构造 | 第59页 |
5.4.2. 训练过程 | 第59页 |
5.4.3. 训练结果 | 第59-60页 |
5.5. 不同数据集测试结果 | 第60-61页 |
5.5.1. 平日(工作日+双休日)测试集 | 第60页 |
5.5.2. 节假日测试集 | 第60页 |
5.5.3. 测试结果 | 第60页 |
5.5.4. 结果分析 | 第60-61页 |
5.6. 数据压缩测试 | 第61-62页 |
5.6.1. 分析系统瓶颈 | 第61页 |
5.6.2. 压缩方案 | 第61页 |
5.6.3. 测试结果 | 第61-62页 |
5.6.4. 开启Map中间结果压缩 | 第62页 |
5.7. 本章小节 | 第62-63页 |
第六章 总结与展望 | 第63-64页 |
6.1. 总结 | 第63页 |
6.2. 展望 | 第63-64页 |
第七章 参考文献 | 第64-66页 |
第八章 致谢 | 第66-67页 |