中文文本分类核心技术研究

摘要	第1-5页
Abstract	第5-9页
第一章前言	第9-17页
·引言	第9页
·数据挖掘简介	第9-13页
·数据挖掘的定义	第9-10页
·数据挖掘的发展及研究现状	第10-11页
·数据挖掘的流程	第11页
·数据挖掘的基本任务	第11-12页
·数据挖掘的应用	第12-13页
·文本分类简介	第13-15页
·文本分类的定义	第13页
·文本分类的流程	第13-14页
·文本分类的发展及研究现状	第14-15页
·文本分类的应用	第15页
·本文的研究内容及组织结构	第15-17页
第二章中文文本分词的研究	第17-23页
·引言	第17页
·问题描述	第17-18页
·基本思想	第18页
·新的组合型歧义消解算法	第18-20页
·相关概念	第18-19页
·算法设计原理	第19-20页
·算法实现	第20页
·实验及结果分析	第20-22页
·本章小结	第22-23页
第三章常用的文本特征选择方法及改进	第23-33页
·引言	第23-24页
·常用的特征选择方法	第24-26页
·TF-IDF(Term Frequency/Inverse Document Frequency)	第24页
·互信息(MI)	第24页
·信息增益(IG)	第24-25页
·期望交义熵(CE)	第25页
·文本证据权(WET)	第25页
·优势率(OR)	第25页
·类别区分词(CDW)	第25-26页
·多种特征选择算法的组合	第26-27页
·TF-IDF特征选择方法的改进	第27-29页
·TF-IDF的不足	第27-28页
·改进的思想	第28页
·两点改进	第28-29页
·互信息特征选择方法(MI)的改进	第29页
·互信息特征选择方法(MI)存在的问题	第29页
·互信息特征选择方法(MI)的改进思想	第29页
·实验结果与分析	第29-31页
·本章小结	第31-33页
第四章文本分类算法的研究	第33-43页
·引言	第33页
·相关概念和理论基础	第33-34页
·齐性卡方(CHI)假设检验	第33-34页
·随机事件的独立度	第34页
·软集合相关定义	第34页
·基于DHCHI与EIBA的混合特征选择算法	第34-36页
·DHCHI(Distributed Homogeneous CHI)特征选择方法	第34-35页
·EIBA(Event IndependenceBased Approach)特征选择方法	第35页
·混合(EIBA+DHCHI)特征选择算法	第35-36页
·改进的基于软集合的文本分类方法	第36-37页
·文本的软集合表示	第36页
·构造软集合(F,E)的对照表	第36-37页
·新的基于软集合理论的文本分类算法	第37页
·基于KNN的文本分类算法	第37-38页
·朴素贝叶斯(Naive Bayes)文本分类算法	第38-40页
·实验及结果分析	第40-41页
·本章小节	第41-43页
第五章总结和展望	第43-44页
·全文总结	第43页
·工作展望	第43-44页
参考文献	第44-47页
攻读硕士学位期间发表的学术论文	第47页
读研期间参与科研项目情况	第47-48页
致谢	第48-49页