文本分类及其相关技术研究

摘要	第1-7页
ABSTRACT	第7-12页
第一章绪论	第12-26页
·研究背景	第12-13页
·文本分类研究现状	第13-14页
·常用文本分类算法	第14-20页
·分类性能的评估	第20-22页
·基准测试数据集	第22-23页
·本文主要研究内容	第23-24页
·本文的组织	第24-26页
第二章文本预处理	第26-50页
·引言	第26-27页
·分词	第27页
·词干抽取	第27页
·去停用词	第27-28页
·特征选择	第28-34页
·信息增益(Information Gain)	第29-30页
·期望交叉熵(Expected Cross Entropy)	第30页
·互信息(Mutual Information)	第30-31页
·文本证据权(the Weight of Evidence of Text)	第31页
·几率比(Odds Ratio)	第31页
·x~2统计(CHI)	第31-32页
·文档频率(Document Frequency)	第32页
·单词权(Term Strength)	第32-33页
·其它算法	第33-34页
·一种新的特征选择算法	第34-40页
·传统的基尼指数(Gini Index)算法	第34-35页
·改进的基尼指数算法	第35页
·实验结果	第35-40页
·结论	第40页
·特征加权	第40-46页
·TF-IDF算法	第41-42页
·一种改进的TF-IDF算法——TF-Gini算法	第42-46页
·向量空间模型	第46-48页
·本章小结	第48-50页
第三章基于基尼加权的朴素贝叶斯文本分类器	第50-61页
·引言	第50-51页
·贝叶斯概率基础	第51-53页
·概率论基础	第51-52页
·贝叶斯概率基础	第52-53页
·朴素贝叶斯分类器	第53-56页
·贝叶斯定理	第53-54页
·朴素贝叶斯分类过程	第54-56页
·基于特征加权的朴素贝叶斯分类器	第56-60页
·特征加权技术的基本思想	第56-57页
·基于基尼特征加权的朴素贝叶斯分类器	第57-60页
·本章小结	第60-61页
第四章基于基尼加权的模糊kNN文本分类器	第61-71页
·引言	第61-62页
·kNN决策规则的改进	第62-67页
·传统的kNN决策规则	第62-63页
·改进的kNN决策规则	第63-65页
·实验结果与分析	第65-67页
·基于基尼加权的模糊kNN分类器	第67-70页
·本章小结	第70-71页
第五章一种新的文本分类模型——基于基尼指数的文本分类器(IGIC)	第71-91页
·引言	第71-72页
·决策树中的基尼指数算法	第72-73页
·改进的基尼指数分类算法	第73-74页
·基尼指数文本分类可行性理论基础	第74-86页
·熵的定义	第74-75页
·最大熵原理	第75-76页
·最大熵模型求解	第76-77页
·参数求解算法	第77-79页
·使用最大熵模型进行文本分类	第79-80页
·由熵推出基尼指数的证明	第80-86页
·基尼分类器实验结果及分析	第86-90页
·本章小结	第90-91页
第六章结束语	第91-94页
·本文主要工作总结	第91-92页
·进一步研究和展望	第92-94页
参考文献	第94-102页
致谢	第102-103页
攻读博士期间发表和已录用的学术论文	第103页