首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

中文文本分类中特征提取算法研究

中文摘要第1-6页
英文摘要第6-11页
1 绪论第11-18页
   ·问题的提出及其意义第11-12页
   ·国内外现状第12页
   ·国内研究进展概况第12-15页
   ·现有系统存在的缺陷第15-16页
   ·本文的研究工作第16页
   ·本文的组织结构第16-18页
2 文本分类概述第18-27页
   ·两种文本表示方法第18-19页
     ·词袋方式(Bag of Words)第18页
     ·N-gram 模型第18-19页
   ·向量空间模型第19页
   ·常用的分类方法第19-23页
     ·k-近邻法(k-Nearest Neighbor )第19-20页
     ·支持向量机第20-22页
     ·朴素贝叶斯法(Naive Bayes)第22-23页
   ·文本分类的评价方法第23-26页
     ·查全率与查对率、宏平均与微平均第24-25页
     ·BEP(Break-even point)和F1(F-measure)第25-26页
   ·本章小结第26-27页
3 特征提取算法 TFIDF 的改进第27-34页
   ·常用的特征抽取方法第27-29页
     ·文档频率DF(Document Frequency:DF)第27页
     ·信息增益方法IG(Imformation Gain:IG)第27页
     ·互信息方法MI(Mutual Information:MI)第27-28页
     ·x2 统计量(CHI)第28-29页
   ·TFIDF第29-33页
     ·特征项频率(Term Frequency: TF)第29页
     ·反文档频率(Inverse Document Frequency:IDF)第29页
     ·TFIDF 的不足第29-31页
     ·TFIDF 的改进第31-33页
   ·本章小结第33-34页
4 遗传算法用于文本分类第34-43页
   ·引言第34页
   ·遗传算法简介第34-38页
     ·基本原理第34-35页
     ·编码问题第35页
     ·交叉运算第35-36页
     ·变异运算第36-37页
     ·选择运算第37-38页
     ·适应度函数第38页
   ·遗传算法参数第38-39页
   ·分类模型第39-40页
   ·用遗传算法进行特征提取的文本分类系统第40-41页
     ·系统模型第40-41页
     ·系统描述第41页
   ·本章小结第41-43页
5 实验结果与分析第43-54页
   ·引言第43页
   ·实验介绍第43-44页
   ·实验结果及其分析第44-52页
     ·混淆矩阵第44-47页
     ·总体查全率、查对率、F_1 值第47-48页
     ·各个类的查全率、查对率、F_1 值第48-50页
     ·各个类的分类情况图形显示第50-52页
     ·本节小结第52页
   ·本章小结第52-54页
6 结论与展望第54-55页
   ·本文的工作总结第54页
   ·对未来工作的展望第54-55页
致谢第55-56页
参考文献第56-59页
附录:作者在攻读硕士学位期间发表论文的目录第59-60页
独创性声明第60页
学位论文版权使用授权书第60页

论文共60页,点击 下载论文
上一篇:人身保护令制度研究
下一篇:人ATP结合盒超家族蛋白相互作用蛋白的规模化发掘