基于机器学习的数据碎片类型识别技术研究

摘要	第5-6页
ABSTRACT	第6页
第1章绪论	第9-15页
1.1 研究背景与意义	第9-10页
1.2 研究现状	第10-13页
1.2.1 文件类型识别技术研究现状	第10-11页
1.2.2 数据和文件碎片类型识别技术研究现状	第11-12页
1.2.3 目前存在的问题	第12-13页
1.3 研究内容	第13-14页
1.4 论文组织结构	第14-15页
第2章数据碎片类型识别方法综述	第15-31页
2.1 基于相似度度量的方法	第15-18页
2.1.1 基于相似度度量的方法概述	第15-16页
2.1.2 常见相似性度量方法	第16-18页
2.2 基于机器学习的方法	第18-27页
2.2.1 基于机器学习的方法概述	第18页
2.2.2 常用的碎片分类特征	第18-22页
2.2.3 常用的机器学习算法	第22-27页
2.3 其它方法	第27-28页
2.3.1 基于图像分类的方法	第27-28页
2.3.2 基于文件结构特征的方法	第28页
2.4 本章小结	第28-31页
第3章基于机器学习的数据碎片类型识别技术	第31-51页
3.1 基本概念	第31-33页
3.1.1 文件类型	第31-32页
3.1.2 数据类型	第32-33页
3.1.3 数据碎片识别问题重定义	第33页
3.2 基于机器学习的数据类型识别方法步骤	第33-38页
3.2.1 数据集构建	第35-36页
3.2.2 特征提取	第36页
3.2.3 分类器构建	第36-37页
3.2.4 分类效果检验	第37-38页
3.3 对比实验设计	第38-42页
3.3.1 文件类型与数据类型的选取	第38-39页
3.3.2 实验过程设计	第39-42页
3.4 实验结果及分析	第42-48页
3.4.1 SVM 算法不同核函数结果比较	第42-45页
3.4.2 几种机器学习算法的结果对比	第45-46页
3.4.3 与使用文件类型方法的结果对比	第46-48页
3.5 讨论	第48-49页
3.5.1 jpg 数据碎片识别	第48页
3.5.2 deflate 数据类型识别	第48-49页
3.5.3 复合文档碎片识别	第49页
3.6 本章小结	第49-51页
第4章本文方法在 PPT 文件碎片识别中的应用	第51-61页
4.1 PPT 文件碎片难以识别的原因	第51-54页
4.1.1 PPT 文件格式	第51-53页
4.1.2 PPT 文件碎片难以识别的原因	第53-54页
4.2 依据数据类型的 PPT 碎片识别方法	第54-57页
4.2.1 依据数据类型的方法简介	第54-55页
4.2.2 数据类型的选取和数据集构建	第55-57页
4.2.3 特征选取和机器学习算法选取	第57页
4.3 实验结果及分析	第57-60页
4.3.1 实验结果	第57-59页
4.3.2 与依据文件类型的方法对比	第59-60页
4.4 本章小结	第60-61页
第5章总结与展望	第61-63页
5.1 研究工作总结	第61-62页
5.2 未来工作展望	第62-63页
致谢	第63-65页
参考文献	第65-71页
附录	第71-72页
详细摘要	第72-74页