基于特征选择的文件安全监控研究

致谢	第1-6页
摘要	第6-7页
ABSTRACT	第7-11页
1 绪论	第11-14页
·引言	第11页
·研究背景与意义	第11-12页
·研究内容	第12页
·论文组织结构	第12-13页
·本章小结	第13-14页
2 相关内容介绍	第14-25页
·字符串匹配	第14页
·文本分类类别匹配	第14-15页
·文本分类研究现状	第15页
·中英文文本分类区别	第15页
·文本分类的相关技术	第15-17页
·文本分类的一般过程	第17-18页
·训练过程	第17-18页
·分类过程	第18页
·文本预处理	第18-19页
·分词	第18页
·去停用词	第18-19页
·特征降维	第19页
·分类器分类	第19-24页
·传统类中心分类算法	第19页
·朴素贝叶斯算法(NB)	第19-21页
·K最邻近算法(KNN)	第21-22页
·支持向量机算法	第22-24页
·文本分类技术的前景	第24页
·本章小结	第24-25页
3 特征选择算法研究	第25-33页
·常用的特征选择算法	第25-28页
·特征频率(TF Term Frequency)	第25页
·文档频数(DF Document Frequency)	第25-26页
·互信息(MI,Mutual Information)	第26页
·信息增益(IG,Information Gain)	第26-27页
·期望交互熵(ECE,Expected Cross Entropy)	第27页
·χ~2统计量(也称卡方统计量CHI)	第27-28页
·文本证据权(WET,Weight of Evidence for Text)	第28页
·TFIDF算法	第28-29页
·TFIDF算法缺陷	第29页
·TFIDF算法改进	第29-30页
·TFIDF算法改进实验分析	第30-32页
·本章小结	第32-33页
4 分类模块的设计	第33-47页
·文件监控系统模型	第33页
·本地搜索开源软件DocFetcher	第33-43页
·DocFetcher的特点	第34页
·DocFetcher的编译	第34-41页
·例：遍历word文档接口类	第41-43页
·预处理模块	第43-44页
·ICTCLAS分词系统	第43-44页
·去停用词流程	第44页
·特征选择模块	第44-45页
·待分类文本向量化	第45页
·分类器分类模块	第45-46页
·本章小结	第46-47页
5 分类模块的实现	第47-59页
·算法的数据结构	第47页
·ICTCLAS分词系统的效果	第47-49页
·去停用词的实现	第49-50页
·特征选择	第50-54页
·TFIDF算法实现	第50-53页
·改进TFIDF算法实现	第53-54页
·分类器的实现	第54-56页
·界面的功能描述	第56-58页
·本章小结	第58-59页
6 实验与分析	第59-64页
·实验评价标准	第59-60页
·实验方法	第60-62页
·实验分析	第62-64页
7 总结与展望	第64-65页
·工作总结	第64页
·下一步展望	第64-65页
参考文献	第65-67页
作者简历	第67-69页
学位论文数据集	第69页