文本分类中词语权重计算方法的改进及应用

摘要	第1-4页
ABSTRACT	第4-10页
1 绪论	第10-16页
·本文的研究背景及其现实意义	第10-11页
·国外研究概况	第11-12页
·国内研究概况	第12-14页
·本文所做的主要研究工作	第14-15页
·本文安排	第15-16页
2 文本分类的的相关技术	第16-33页
·文本信息检索模型	第16-17页
·布尔模型(Boolean Model)	第16页
·概率模型(Probabilistic Model)	第16页
·向量空间模型(Vector Space Model,简称VSM)	第16-17页
·常用中文分词方法	第17-21页
·引言	第17-18页
·中文分词中的难题	第18-19页
·机械分词方法	第19页
·N-GRAM 分词方法	第19-20页
·本文采用的分词方法[10]	第20-21页
·常用特征项提取方法	第21-24页
·文档频率DF(Document Frequency:DF)	第21-22页
·信息增益方法I G(Imformation Gain:IG)	第22页
·互信息方法MI(Mutual Information:MI)	第22-23页
·x2 统计量(CHI)	第23-24页
·文本证据权(Weight Of Evidence Text)	第24页
·常用分类方法	第24-30页
·类中心分类法	第24-25页
·朴素贝叶斯法(Naive Bayes)	第25-27页
·支持向量机	第27-29页
·k-近邻法(k-Nearest Neighbor )	第29-30页
·文本分类结果的评价指标	第30-32页
·本章小结	第32-33页
3 词语权重计算方法的改进	第33-39页
·传统词语权重计算方法的不足	第33-36页
·特征项频率(Term Frequency: TF)	第33页
·反文档频率(Inverse Document Frequency:IDF)	第33-34页
·TFIDF 的不足	第34-36页
·改进的词语权重计算方法	第36-38页
·特征项的类间离散度	第36页
·特征项的类内离散度	第36-37页
·特征项的不完全分类的词频差异	第37-38页
·小结	第38-39页
4 遗传算法在文本分类中的应用	第39-49页
·遗传算法的生物学基础	第39-41页
·遗传与变异	第39-40页
·进化	第40页
·遗传与进化的系统观	第40-41页
·遗传算法简介	第41-43页
·遗传算法概要	第41-42页
·遗传算法的运算过程	第42-43页
·遗传算法的基本实现技术及在本文中的应用	第43-48页
·编码方法	第44-45页
·适应度函数	第45页
·选择算子	第45-46页
·交叉算子	第46-47页
·变异算子	第47-48页
·本文使用的相关参数	第48页
·本章小结	第48-49页
5 实验与分析	第49-64页
·实验介绍	第49-50页
·实验结果及其分析	第50-63页
·混淆矩阵	第50-56页
·总体查全率、查对率、F1 值	第56-59页
·各个类的查全率、查对率	第59-60页
·各个类的分类情况图形显示	第60-63页
·小结	第63-64页
6 结束语	第64-66页
·总结	第64-65页
·下一步的工作	第65-66页
致谢	第66-67页
参考文献	第67-70页
附录	第70页