首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

文本分类中词语权重计算方法的改进及应用

摘要第1-4页
ABSTRACT第4-10页
1 绪论第10-16页
   ·本文的研究背景及其现实意义第10-11页
   ·国外研究概况第11-12页
   ·国内研究概况第12-14页
   ·本文所做的主要研究工作第14-15页
   ·本文安排第15-16页
2 文本分类的的相关技术第16-33页
   ·文本信息检索模型第16-17页
     ·布尔模型(Boolean Model)第16页
     ·概率模型(Probabilistic Model)第16页
     ·向量空间模型(Vector Space Model,简称VSM)第16-17页
   ·常用中文分词方法第17-21页
     ·引言第17-18页
     ·中文分词中的难题第18-19页
     ·机械分词方法第19页
     ·N-GRAM 分词方法第19-20页
     ·本文采用的分词方法[10]第20-21页
   ·常用特征项提取方法第21-24页
     ·文档频率DF(Document Frequency:DF)第21-22页
     ·信息增益方法I G(Imformation Gain:IG)第22页
     ·互信息方法MI(Mutual Information:MI)第22-23页
     ·x2 统计量(CHI)第23-24页
     ·文本证据权(Weight Of Evidence Text)第24页
   ·常用分类方法第24-30页
     ·类中心分类法第24-25页
     ·朴素贝叶斯法(Naive Bayes)第25-27页
     ·支持向量机第27-29页
     ·k-近邻法(k-Nearest Neighbor )第29-30页
   ·文本分类结果的评价指标第30-32页
   ·本章小结第32-33页
3 词语权重计算方法的改进第33-39页
   ·传统词语权重计算方法的不足第33-36页
     ·特征项频率(Term Frequency: TF)第33页
     ·反文档频率(Inverse Document Frequency:IDF)第33-34页
     ·TFIDF 的不足第34-36页
   ·改进的词语权重计算方法第36-38页
     ·特征项的类间离散度第36页
     ·特征项的类内离散度第36-37页
     ·特征项的不完全分类的词频差异第37-38页
   ·小结第38-39页
4 遗传算法在文本分类中的应用第39-49页
   ·遗传算法的生物学基础第39-41页
     ·遗传与变异第39-40页
     ·进化第40页
     ·遗传与进化的系统观第40-41页
   ·遗传算法简介第41-43页
     ·遗传算法概要第41-42页
     ·遗传算法的运算过程第42-43页
   ·遗传算法的基本实现技术及在本文中的应用第43-48页
     ·编码方法第44-45页
     ·适应度函数第45页
     ·选择算子第45-46页
     ·交叉算子第46-47页
     ·变异算子第47-48页
     ·本文使用的相关参数第48页
   ·本章小结第48-49页
5 实验与分析第49-64页
   ·实验介绍第49-50页
   ·实验结果及其分析第50-63页
     ·混淆矩阵第50-56页
     ·总体查全率、查对率、F1 值第56-59页
     ·各个类的查全率、查对率第59-60页
     ·各个类的分类情况图形显示第60-63页
   ·小结第63-64页
6 结束语第64-66页
   ·总结第64-65页
   ·下一步的工作第65-66页
致谢第66-67页
参考文献第67-70页
附录第70页

论文共70页,点击 下载论文
上一篇:《唐律疏议》之共同犯罪研究
下一篇:川西亚高山暗针叶林小流域生态水文过程耦合及模拟