| 摘要 | 第1-5页 |
| Abstract | 第5-9页 |
| 第一章 前言 | 第9-17页 |
| ·引言 | 第9页 |
| ·数据挖掘简介 | 第9-13页 |
| ·数据挖掘的定义 | 第9-10页 |
| ·数据挖掘的发展及研究现状 | 第10-11页 |
| ·数据挖掘的流程 | 第11页 |
| ·数据挖掘的基本任务 | 第11-12页 |
| ·数据挖掘的应用 | 第12-13页 |
| ·文本分类简介 | 第13-15页 |
| ·文本分类的定义 | 第13页 |
| ·文本分类的流程 | 第13-14页 |
| ·文本分类的发展及研究现状 | 第14-15页 |
| ·文本分类的应用 | 第15页 |
| ·本文的研究内容及组织结构 | 第15-17页 |
| 第二章 中文文本分词的研究 | 第17-23页 |
| ·引言 | 第17页 |
| ·问题描述 | 第17-18页 |
| ·基本思想 | 第18页 |
| ·新的组合型歧义消解算法 | 第18-20页 |
| ·相关概念 | 第18-19页 |
| ·算法设计原理 | 第19-20页 |
| ·算法实现 | 第20页 |
| ·实验及结果分析 | 第20-22页 |
| ·本章小结 | 第22-23页 |
| 第三章 常用的文本特征选择方法及改进 | 第23-33页 |
| ·引言 | 第23-24页 |
| ·常用的特征选择方法 | 第24-26页 |
| ·TF-IDF(Term Frequency/Inverse Document Frequency) | 第24页 |
| ·互信息(MI) | 第24页 |
| ·信息增益(IG) | 第24-25页 |
| ·期望交义熵(CE) | 第25页 |
| ·文本证据权(WET) | 第25页 |
| ·优势率(OR) | 第25页 |
| ·类别区分词(CDW) | 第25-26页 |
| ·多种特征选择算法的组合 | 第26-27页 |
| ·TF-IDF特征选择方法的改进 | 第27-29页 |
| ·TF-IDF的不足 | 第27-28页 |
| ·改进的思想 | 第28页 |
| ·两点改进 | 第28-29页 |
| ·互信息特征选择方法(MI)的改进 | 第29页 |
| ·互信息特征选择方法(MI)存在的问题 | 第29页 |
| ·互信息特征选择方法(MI)的改进思想 | 第29页 |
| ·实验结果与分析 | 第29-31页 |
| ·本章小结 | 第31-33页 |
| 第四章 文本分类算法的研究 | 第33-43页 |
| ·引言 | 第33页 |
| ·相关概念和理论基础 | 第33-34页 |
| ·齐性卡方(CHI)假设检验 | 第33-34页 |
| ·随机事件的独立度 | 第34页 |
| ·软集合相关定义 | 第34页 |
| ·基于DHCHI与EIBA的混合特征选择算法 | 第34-36页 |
| ·DHCHI(Distributed Homogeneous CHI)特征选择方法 | 第34-35页 |
| ·EIBA(Event IndependenceBased Approach)特征选择方法 | 第35页 |
| ·混合(EIBA+DHCHI)特征选择算法 | 第35-36页 |
| ·改进的基于软集合的文本分类方法 | 第36-37页 |
| ·文本的软集合表示 | 第36页 |
| ·构造软集合(F,E)的对照表 | 第36-37页 |
| ·新的基于软集合理论的文本分类算法 | 第37页 |
| ·基于KNN的文本分类算法 | 第37-38页 |
| ·朴素贝叶斯(Naive Bayes)文本分类算法 | 第38-40页 |
| ·实验及结果分析 | 第40-41页 |
| ·本章小节 | 第41-43页 |
| 第五章 总结和展望 | 第43-44页 |
| ·全文总结 | 第43页 |
| ·工作展望 | 第43-44页 |
| 参考文献 | 第44-47页 |
| 攻读硕士学位期间发表的学术论文 | 第47页 |
| 读研期间参与科研项目情况 | 第47-48页 |
| 致谢 | 第48-49页 |