首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于RLS-MARS特征选择的文本分类方法研究

摘要第1-5页
ABSTRACT第5-10页
1 引言第10-14页
   ·研究背景第10-11页
   ·本文工作第11-12页
   ·论文组织第12-14页
2 文本分类概述第14-29页
   ·文本分类的定义第14页
   ·文本分类的任务第14-15页
   ·文本分类系统的流程第15-16页
   ·文本预处理第16-18页
     ·去除语料库的格式标记第16页
     ·去除停用词和词干化第16-17页
     ·中文分词第17-18页
   ·文本表示方法第18-21页
     ·布尔权重第19页
     ·词频权重第19-20页
     ·tf-idf 权重第20页
     ·tfc 权重第20页
     ·ltc 权重第20-21页
     ·熵权重第21页
   ·文本分类算法第21-26页
     ·Rocchio 算法第21-22页
     ·Na(?)ve Bayes 算法第22-23页
     ·KNN 算法第23页
     ·决策树第23-24页
     ·神经网络第24-25页
     ·支持向量机第25-26页
     ·回归模型第26页
   ·文本分类器的测试和评价第26-29页
     ·文本分类器的测试第26-27页
     ·文本分类器的评价第27-29页
3 维数约减第29-36页
   ·维数约减技术第29-30页
   ·特征选择第30-32页
     ·文档频数(Document Frequency, DF)第30页
     ·互信息(Mutual Information, MI)第30页
     ·χ~2 统计量(CHI-Squared)第30-31页
     ·信息增益(Information Gain, IG)第31页
     ·期望交叉熵(Expected Cross Entropy, ECE)第31页
     ·文本证据权(The Weight Of Evidence for Text)第31-32页
     ·几率比(Odds Ratio, OR)第32页
   ·特征提取第32-36页
     ·潜在语义索引(Latent Semantic Index, LSI)第32-33页
     ·非负矩阵分解(Non-negative Matrix Factorization, NMF)第33-34页
     ·主成分分析(Principal Component Analysis, PCA)第34-36页
4 基于RLS-MARS 的特征选择第36-44页
   ·基本符号表示第36页
   ·线性回归模型第36-38页
   ·最小二乘参数估计(LEAST SQUARES ESTIMATE)第38-39页
   ·逻辑斯特回归分析(LOGISTIC)第39-40页
   ·规则最小二乘分类算法(RLS)第40-41页
   ·最小角度回归收缩(LARS)第41-42页
   ·规则最小二乘多角度回归收缩第42-43页
   ·算法复杂度分析第43-44页
5 实验第44-57页
   ·Reuters-21578 语料库第44-45页
   ·预处理第45页
   ·在类别不均衡下的实验结果第45-51页
     ·实验设计第46页
     ·实验结果及分析第46-51页
       ·特征维数对性能的影响第46-48页
       ·二范数忽略(λ_2 = 0)与二范数规范(λ_2 = 100)实验结果比较及分析第48-49页
       ·RLS-MARS 算法与χ~2 特征选择实验结果比较及分析第49-51页
   ·在类别均衡下的实验结果第51-56页
     ·实验设计第51页
     ·实验结果及分析第51-56页
       ·特征维数对性能的影响第51-52页
       ·二范数忽略(λ_2 = 0)与二范数规范(λ_2 = 100)实验结果比较及分析第52-54页
       ·RLS-MARS 算法与χ~2 特征选择实验结果比较及分析第54-56页
   ·实验小结第56-57页
6 总结与展望第57-59页
   ·总结第57-58页
   ·展望第58-59页
参考文献第59-66页
致谢第66页

论文共66页,点击 下载论文
上一篇:基于中间语义的跨语言信息检索研究
下一篇:基础教育信息化区域推进模式研究--以江西师范大学“红土地”教育信息化行动计划(APITERL)为研究个案