微软恶意软件同源分析及检测系统架构设计

摘要	第5-6页
Abstract	第6页
引言	第9-11页
1 绪论	第11-18页
1.1 论文的研究背景	第11-16页
1.1.1 恶意软件与网络信息系统安全	第11-12页
1.1.2 恶意软件分析检测简介	第12-13页
1.1.3 机器学习用于恶意软件分类研究现状	第13-14页
1.1.4 分布式安全检测系统研究现状——Metron	第14-16页
1.1.5 系统缺陷	第16页
1.2 本文的研究内容	第16-17页
1.2.1 研究意义	第16-17页
1.2.2 研究内容	第17页
1.3 论文的组织安排	第17-18页
2 恶意软件同源分类模型设计	第18-44页
2.1 问题描述	第18页
2.2 数据源	第18-20页
2.3 环境搭建	第20页
2.4 特征选择	第20-23页
2.5 样本分割	第23页
2.6 特征筛选	第23-27页
2.6.1 筛选规则	第23-24页
2.6.2 用于筛选特征的信息熵	第24页
2.6.3 条件熵与信息增益	第24-25页
2.6.4 TF-IDF	第25-26页
2.6.5 信息增益vs TF-IDF	第26-27页
2.7 特征值提取	第27-37页
2.7.1 工具包	第27-28页
2.7.2 各特征提取	第28-37页
2.8 建立模型	第37-38页
2.8.1 随机森林	第37页
2.8.2 Xgboost	第37-38页
2.9 实验结果	第38-42页
2.9.1 过拟合和欠拟合	第38页
2.9.2 正确性	第38-39页
2.9.3 模型评估	第39页
2.9.4 小数据集	第39-41页
2.9.5 大样本数据集	第41-42页
2.10 本章小结	第42-44页
3 分布式安全检测系统设计	第44-49页
3.1 恶意软件分类——EXE文件	第44页
3.2 数据预处理	第44-45页
3.2.1 Hadoop/Spark	第44-45页
3.2.2 流式处理/批处理	第45页
3.3 需求分析	第45-46页
3.4 系统大数据框架	第46-47页
3.5 数据流程图	第47页
3.6 可行性研究	第47-48页
3.7 本章小结	第48-49页
4 系统整合	第49-55页
4.1 系统环境搭建	第49-51页
4.1.1 ES（ElasticSearch）	第49页
4.1.2 Moloch-capture	第49-50页
4.1.3 Elastalert	第50-51页
4.2 Pcap包处理	第51-53页
4.3 模型处理数据	第53页
4.4 测试方案	第53-55页
5 结论	第55-57页
6 结束语	第57-59页
6.1 本文的总结	第57页
6.2 进一步工作	第57-59页
参考文献	第59-61页
致谢	第61-62页