文本特征选择算法的研究

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-13页
·研究背景及意义	第9-10页
·研究现状	第10-11页
·论文的相关内容	第11页
·论文的结构安排	第11-13页
2 文本分类技术简介	第13-29页
·基本概念	第13-14页
·文本分类的语料库	第14页
·文本分类流程	第14-16页
·文本预处理	第16页
·分词	第16页
·词性分析	第16页
·消除停用词	第16页
·文本表示	第16-18页
·布尔模型	第16-17页
·向量空间模型	第17-18页
·特征降维	第18-20页
·文本分类算法	第20-23页
·KNN 分类方法	第20-21页
·朴素贝叶斯	第21-22页
·支持向量机分类方法	第22-23页
·测评	第23-24页
·常用的特征选择方法	第24-27页
·文档频率	第24-25页
·互信息	第25-26页
·信息增益	第26页
·X~2统计量	第26-27页
·本章小结	第27-29页
3 基于信息增益特征关联树的文本特征选择算法	第29-36页
·信息增益算法分析	第29-30页
·改进信息增益算法	第30-34页
·基于类内特征关联树模型去除冗余特征	第30-32页
·基于类间加权离散度的信息增益公式改进	第32-34页
·基于信息增益特征关联树的特征选择算法的描述	第34页
·本章小结	第34-36页
4 基于改进信息增益的垃圾博客过滤算法	第36-41页
·博客页面的 URL 和超链接的特征分析	第36-37页
·URL 的 Abnormal 和 Normal 名单	第36页
·链接锚文本	第36-37页
·基于改进的信息增益的垃圾博客过滤算法	第37-40页
·利用改进的信息增益公式分类提取特征	第37-38页
·利用互斥信息过滤负相关特征	第38页
·特征值个数的考虑	第38-39页
·基于改进的信息增益的垃圾博客过滤算法的描述	第39-40页
·小结	第40-41页
5 实验数据及结果分析	第41-45页
·基于信息增益特征关联树文本特征选择算法实验	第41-43页
·基于改进信息增益的垃圾博客过滤算法实验	第43-45页
结论	第45-47页
参考文献	第47-51页
攻读硕士学位期间发表学术论文情况	第51-52页
致谢	第52页