首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

中文文本分类中的特征选择和权重计算方法研究

摘要第1-5页
Abstract第5-6页
目录第6-8页
第1章 绪论第8-12页
   ·研究背景及意义第8页
   ·国内外研究现状第8-10页
   ·本文研究内容第10页
   ·本文组织结构第10-12页
第2章 文本分类技术第12-30页
   ·文本分类问题的描述第12页
   ·文本分类任务的特点第12-13页
   ·文本分类流程第13-14页
   ·文本预处理第14-16页
     ·中文分词第14-15页
     ·去除停用词第15-16页
   ·文本表示模型第16-19页
     ·向量空间模型第16-18页
     ·布尔模型第18页
     ·概率模型第18-19页
     ·图空间模型第19页
   ·降维处理第19-20页
   ·分类方法第20-25页
     ·朴素贝叶斯方法第21页
     ·KNN 方法第21-22页
     ·支持向量机(SVM)第22-23页
     ·神经网络方法第23-24页
     ·决策树方法第24-25页
   ·分类性能评估第25-28页
     ·准确率和召回率第26页
     ·F 评估第26-27页
     ·宏平均与微平均第27页
     ·平衡点(BEP)第27-28页
   ·本章小结第28-30页
第3章 特征选择方法研究第30-36页
   ·引言第30页
   ·常用特征选择方法第30-33页
     ·文档频率(DF)第30-31页
     ·信息增益(IG)第31页
     ·互信息(MI)第31-32页
     ·卡方统计量(CHI)第32-33页
     ·几率比(OR)第33页
     ·期望交叉熵(ECE)第33页
   ·特征选择函数的约束研究第33-35页
   ·本章小结第35-36页
第4章 基于不均衡数据集文本分类的特征选择算法研究与改进第36-44页
   ·概述第36页
   ·不均衡数据集分类问题第36-38页
     ·不均衡数据集分类问题的难点第36-37页
     ·不均衡数据集分类问题的相关研究第37-38页
   ·基于不均衡数据集上文本分类的特征选择方法第38-40页
   ·实验设计与分析第40-42页
     ·语料库第40页
     ·分词第40-41页
     ·分类算法和性能评估方法第41页
     ·实验结果与分析第41-42页
   ·本章小结第42-44页
第5章 特征词权重计算方法的改进第44-52页
   ·常用的特征权重算法第44页
   ·TF-IDF 的介绍第44-46页
   ·基于 TF-IDF 的改进计算方法第46-47页
     ·TF-IDF* λ IG第47页
     ·TF-IDF* λ CHI第47页
   ·实验设计与分析第47-51页
     ·语料库第47-48页
     ·KNN 算法中 K 值的确定第48-49页
     ·实验结果与分析第49-51页
   ·本章小结第51-52页
第6章 总结与展望第52-54页
参考文献第54-58页
攻读硕士学位期间所发表的学术论文第58-60页
致谢第60页

论文共60页,点击 下载论文
上一篇:基于图编辑距离的自然景物识别
下一篇:城市移动黄页信息定向采集与管理技术的研究与应用