面向移动互联网的文本分类技术应用研究
致谢 | 第5-6页 |
摘要 | 第6-7页 |
ABSTRACT | 第7页 |
1 引言 | 第10-15页 |
1.1 研究背景与意义 | 第10-11页 |
1.2 国内外研究现状 | 第11-13页 |
1.2.1 移动互联网数据研究现状 | 第11-12页 |
1.2.2 文本分类研究现状 | 第12-13页 |
1.3 本文主要工作 | 第13-14页 |
1.4 本章小结 | 第14-15页 |
2 相关理论与技术 | 第15-30页 |
2.1 文本分类技术 | 第15-26页 |
2.1.1 文本表示模型 | 第16-18页 |
2.1.2 特征权值计算 | 第18-19页 |
2.1.3 特征选择 | 第19-21页 |
2.1.4 文本分类算法 | 第21-26页 |
2.2 网络流量分类技术 | 第26-29页 |
2.2.1 基于端口的网络流量分类 | 第27页 |
2.2.2 基于有效载荷的网络流量分类 | 第27-28页 |
2.2.3 基于测度的网络流量分类 | 第28-29页 |
2.3 本章小结 | 第29-30页 |
3 移动互联网数据分类与识别关键技术 | 第30-51页 |
3.1 移动互联网数据分析模型 | 第30-31页 |
3.2 移动应用数据分析 | 第31-37页 |
3.2.1 数据集 | 第31-33页 |
3.2.2 HTTP协议 | 第33-34页 |
3.2.3 数据类别特征分析 | 第34-37页 |
3.3 基于文本分类的移动HTTP数据分类 | 第37-45页 |
3.3.1 基于改进N-Gram的特征提取算法 | 第38-40页 |
3.3.2 基于改进TF-IDF的特征权值计算 | 第40页 |
3.3.3 文本分类算法 | 第40-42页 |
3.3.4 实验分析 | 第42-45页 |
3.4 基于特征串匹配的移动HTTP数据识别 | 第45-50页 |
3.4.1 即时通讯类应用 | 第45-47页 |
3.4.2 社交类应用 | 第47-48页 |
3.4.3 音视频类应用 | 第48-49页 |
3.4.4 手机邮箱类应用 | 第49-50页 |
3.5 本章小结 | 第50-51页 |
4 移动互联网数据分析系统设计与实现 | 第51-75页 |
4.1 系统建设目标 | 第51-52页 |
4.2 总体框架 | 第52-54页 |
4.3 数据采集模块 | 第54-56页 |
4.4 协议解析模块 | 第56-66页 |
4.4.1 GTP包解析 | 第57-59页 |
4.4.2 TCP/IP协议解析 | 第59-61页 |
4.4.3 RADIUS协议解析 | 第61-63页 |
4.4.4 协议解析模块设计 | 第63-66页 |
4.5 数据分类模块 | 第66-70页 |
4.5.1 数据预处理 | 第67-68页 |
4.5.2 建立词典 | 第68-69页 |
4.5.3 建立VSM模型与数据分类 | 第69-70页 |
4.6 应用识别模块 | 第70-71页 |
4.7 系统实现 | 第71-74页 |
4.8 本章小结 | 第74-75页 |
5 总结与展望 | 第75-76页 |
参考文献 | 第76-80页 |
附录A | 第80-82页 |
作者简历及攻读硕士学位期间取得的研究成果 | 第82-84页 |
学位论文数据集 | 第84页 |