摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第10-16页 |
1.1 研究背景及意义 | 第10-11页 |
1.2 国内外研究现状 | 第11-14页 |
1.3 研究课题来源 | 第14页 |
1.4 研究内容 | 第14页 |
1.5 论文的结构安排 | 第14-16页 |
第二章 万兆网络环境中用户行为数据采集方法的研究 | 第16-26页 |
2.1 硬件方面存在的问题以及优化方法 | 第16-17页 |
2.2 软件方面存在的问题以及优化方法 | 第17-19页 |
2.3 软件优化方案与硬件优化方案的对比研究 | 第19-21页 |
2.4 测试与验证 | 第21-24页 |
2.4.1 Linux的网络性能优化 | 第21-23页 |
2.4.2 报文捕获的优化 | 第23-24页 |
2.5 基于数据流的网络协议识别 | 第24-25页 |
2.5.1 基于端口的网络协议识别 | 第24页 |
2.5.2 基于有效载荷的网络协议识别 | 第24页 |
2.5.3 基于机器学习的网络协议识别 | 第24-25页 |
2.6 本章小结 | 第25-26页 |
第三章 基于Pentaho的多维分析模型的设计与实现 | 第26-38页 |
3.1 数据的来源与隐私 | 第26-29页 |
3.1.1 数据的总体情况 | 第26-27页 |
3.1.2 网络行为数据的格式 | 第27-29页 |
3.1.3 数据的安全与隐私 | 第29页 |
3.2 网络行为数据的清洗与转换 | 第29-31页 |
3.2.1 上网认证日志的清洗与转换 | 第30页 |
3.2.2 上网行为数据的清洗与转换 | 第30-31页 |
3.3 多维分析模型的设计与实现 | 第31-34页 |
3.3.1 维度表的结构 | 第32页 |
3.3.2 事实表的结构 | 第32-33页 |
3.3.3 数据立方体的构建 | 第33-34页 |
3.4 抽样分析与可视化展示 | 第34-37页 |
3.4.1 用户在线时长抽样分析结果 | 第35-36页 |
3.4.2 用户网络行为抽样分析结果 | 第36-37页 |
3.5 本章小结 | 第37-38页 |
第四章 基于Hadoop的网络行为数据处理 | 第38-46页 |
4.1 Hadoop生态系统与组成 | 第38-40页 |
4.1.1 底层服务模块Common | 第38-39页 |
4.1.2 分布式文件系统HDFS | 第39页 |
4.1.3 并行计算框架MapReduce | 第39页 |
4.1.4 批量数据交换工具Sqoop | 第39-40页 |
4.1.5 分布式数据仓库Hive | 第40页 |
4.2 网络行为数据的归约方法 | 第40-42页 |
4.2.1 时间颗粒度扩大 | 第40-41页 |
4.2.2 网络应用类型颗粒度扩大 | 第41页 |
4.2.3 基于箱线图的网络应用类型属性值归约 | 第41-42页 |
4.3 海量网络行为数据的处理过程与结果 | 第42-45页 |
4.3.1 数据的导入 | 第42页 |
4.3.2 数据的归约处理 | 第42-44页 |
4.3.3 数据预处理前后数据存储情况对比 | 第44-45页 |
4.4 本章小结 | 第45-46页 |
第五章 网络行为对学习成绩影响的挖掘与研究 | 第46-56页 |
5.1 基于回归算法的学生成绩预测模型 | 第46-51页 |
5.1.1 算法选择的依据 | 第46-47页 |
5.1.2 算法伪代码 | 第47-49页 |
5.1.3 实验结果 | 第49-51页 |
5.2 基于C4.5决策树的网络行为对学习成绩的影响模型 | 第51-55页 |
5.2.1 数据的离散处理 | 第51页 |
5.2.2 决策树原理 | 第51-52页 |
5.2.3 算法伪代码 | 第52-53页 |
5.2.4 实验结果 | 第53-55页 |
5.3 本章小结 | 第55-56页 |
第六章 结论与展望 | 第56-58页 |
致谢 | 第58-60页 |
参考文献 | 第60-66页 |
附录 | 第66-67页 |
附录1 攻读硕士学位期间发表论文目录 | 第66-67页 |
附录2 攻读硕士学位期间获得科研鉴定成果 | 第67页 |