首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Hadoop分布式计算框架的垃圾短信群发检测系统

摘要第6-7页
ABSTRACT第7页
第一章 绪论第8-12页
    1.1. 研究的背景和意义第8-9页
    1.2. 国内外垃圾短信治理研究现状研究现状第9-10页
        1.2.1. 已部署的群发垃圾短信探测分析解决方案第9页
        1.2.2. 基于内容/关键词过滤的局限性第9-10页
        1.2.3. 基于非内容的过滤判别系统的不稳定性第10页
    1.3. 主要工作第10-11页
    1.4. 论文结构第11-12页
第二章 系统架构及数据采集相关技术分析第12-36页
    2.1. 业务仿真和全网络信令跟踪系统架构第12-16页
        2.1.1. 上海电信短信类业务介绍第12-15页
        2.1.2. 上海电信业务仿真和全网络信令跟踪系统立项背景、依据及必要性第15-16页
    2.2. 项目初步技术方案第16-20页
        2.2.1. 系统内部实现架构第18-19页
        2.2.2. 短信/彩信的信令采集和跟踪实现难点分析第19-20页
    2.3. 功能模块说明第20-24页
        2.3.1. 数据采集/合成功能第20-21页
        2.3.2. 数据存储功能第21-22页
        2.3.3. 应用分析功能第22-23页
        2.3.4. 管理门户展现第23页
        2.3.5. 系统用户管理第23页
        2.3.6. 系统日志管理第23-24页
    2.4. 组网改造和存储优化第24-35页
        2.4.1. 组网改造第24-28页
        2.4.2. 存储优化与变迁第28-32页
        2.4.3. 改造实施后的系统架构第32-35页
    2.5. 本章小结第35-36页
第三章 两大类特征的选择与提取第36-48页
    3.1. 系统输入第36页
    3.2. 非内容特征选取第36-42页
        3.2.1. CDR合成第37-38页
        3.2.2. 统计类判别器阈值设定第38-39页
        3.2.3. 非内容判别的其他算法实现第39-41页
        3.2.4. 评估依据第41-42页
    3.3. 文本内容特征第42-46页
        3.3.1. 结合文本特征判断的依据第42页
        3.3.2. 短信文本预处理第42-45页
        3.3.3. 过滤关键词的选择第45页
        3.3.4. Bloom Fliters的原理及实现第45-46页
    3.4. 本章小结第46-48页
第四章 分析过滤模块的设计第48-54页
    4.1. 选取Hadoop系统的依据第48页
        4.1.1. 利用存储和数据处理上的特性第48页
        4.1.2. 适用场景第48页
    4.2. 对比分析第48-49页
    4.3. M-R处理方案分析第49-52页
        4.3.1. M-R和Streming处理方式对比第49-50页
        4.3.2. 两种方式实现M-R逻辑的比较第50-51页
        4.3.3. M-R处理流程设计第51-52页
    4.4. Boosting的原理及算法第52-53页
    4.5. 本章小节第53-54页
第五章 Hadoop框架配置及实验测试第54-63页
    5.1. 测试环境第54-55页
        5.1.1. 实验环境硬件/虚拟机配置第54页
        5.1.2. Hadoop运行环境操作系统配置第54页
        5.1.3. 测试数据选取第54-55页
    5.2. Hadoop框架的配置第55-58页
        5.2.1. 基本参数配置第55-56页
        5.2.2. 测试环境设定第56页
        5.2.3. 实际的部署要求第56页
        5.2.4. Hadoop进程启动顺序第56-57页
        5.2.5. Hadoop任务调度第57-58页
    5.3. 弱分类器(特征集)选择第58页
        5.3.1. 最终选取的特征项第58页
        5.3.2. 阈值选择第58页
    5.4. AdaBoost的实现与训练第58-60页
        5.4.1. 训练集合的选取与构造第59页
        5.4.2. 训练过程第59页
        5.4.3. 训练结果第59-60页
    5.5. 不同数据集测试结果第60-61页
        5.5.1. 平日(工作日+双休日)测试集第60页
        5.5.2. 节假日测试集第60页
        5.5.3. 测试结果第60页
        5.5.4. 结果分析第60-61页
    5.6. 数据压缩测试第61-62页
        5.6.1. 分析系统瓶颈第61页
        5.6.2. 压缩方案第61页
        5.6.3. 测试结果第61-62页
        5.6.4. 开启Map中间结果压缩第62页
    5.7. 本章小节第62-63页
第六章 总结与展望第63-64页
    6.1. 总结第63页
    6.2. 展望第63-64页
第七章 参考文献第64-66页
第八章 致谢第66-67页

论文共67页,点击 下载论文
上一篇:基于利益相关者理论的生态型度假酒店开发和运营策略研究--以裸心谷度假酒店为例
下一篇:基于TR069协议的IPTV终端统一管理平台的实现