基于RLS-MARS特征选择的文本分类方法研究

摘要	第1-5页
ABSTRACT	第5-10页
1 引言	第10-14页
·研究背景	第10-11页
·本文工作	第11-12页
·论文组织	第12-14页
2 文本分类概述	第14-29页
·文本分类的定义	第14页
·文本分类的任务	第14-15页
·文本分类系统的流程	第15-16页
·文本预处理	第16-18页
·去除语料库的格式标记	第16页
·去除停用词和词干化	第16-17页
·中文分词	第17-18页
·文本表示方法	第18-21页
·布尔权重	第19页
·词频权重	第19-20页
·tf-idf 权重	第20页
·tfc 权重	第20页
·ltc 权重	第20-21页
·熵权重	第21页
·文本分类算法	第21-26页
·Rocchio 算法	第21-22页
·Na(?)ve Bayes 算法	第22-23页
·KNN 算法	第23页
·决策树	第23-24页
·神经网络	第24-25页
·支持向量机	第25-26页
·回归模型	第26页
·文本分类器的测试和评价	第26-29页
·文本分类器的测试	第26-27页
·文本分类器的评价	第27-29页
3 维数约减	第29-36页
·维数约减技术	第29-30页
·特征选择	第30-32页
·文档频数(Document Frequency, DF)	第30页
·互信息(Mutual Information, MI)	第30页
·χ~2 统计量(CHI-Squared)	第30-31页
·信息增益(Information Gain, IG)	第31页
·期望交叉熵(Expected Cross Entropy, ECE)	第31页
·文本证据权(The Weight Of Evidence for Text)	第31-32页
·几率比(Odds Ratio, OR)	第32页
·特征提取	第32-36页
·潜在语义索引(Latent Semantic Index, LSI)	第32-33页
·非负矩阵分解(Non-negative Matrix Factorization, NMF)	第33-34页
·主成分分析(Principal Component Analysis, PCA)	第34-36页
4 基于RLS-MARS 的特征选择	第36-44页
·基本符号表示	第36页
·线性回归模型	第36-38页
·最小二乘参数估计(LEAST SQUARES ESTIMATE)	第38-39页
·逻辑斯特回归分析(LOGISTIC)	第39-40页
·规则最小二乘分类算法(RLS)	第40-41页
·最小角度回归收缩(LARS)	第41-42页
·规则最小二乘多角度回归收缩	第42-43页
·算法复杂度分析	第43-44页
5 实验	第44-57页
·Reuters-21578 语料库	第44-45页
·预处理	第45页
·在类别不均衡下的实验结果	第45-51页
·实验设计	第46页
·实验结果及分析	第46-51页
·特征维数对性能的影响	第46-48页
·二范数忽略(λ_2 = 0)与二范数规范(λ_2 = 100)实验结果比较及分析	第48-49页
·RLS-MARS 算法与χ~2 特征选择实验结果比较及分析	第49-51页
·在类别均衡下的实验结果	第51-56页
·实验设计	第51页
·实验结果及分析	第51-56页
·特征维数对性能的影响	第51-52页
·二范数忽略(λ_2 = 0)与二范数规范(λ_2 = 100)实验结果比较及分析	第52-54页
·RLS-MARS 算法与χ~2 特征选择实验结果比较及分析	第54-56页
·实验小结	第56-57页
6 总结与展望	第57-59页
·总结	第57-58页
·展望	第58-59页
参考文献	第59-66页
致谢	第66页