摘要 | 第1-5页 |
Abstract | 第5-9页 |
第1章 绪论 | 第9-14页 |
·研究文本自动分类的背景和意义 | 第9-10页 |
·国内外研究现状综述 | 第10-12页 |
·特征选择算法的研究现状 | 第10-11页 |
·文本自动分类的研究现状 | 第11-12页 |
·本文的研究目标和主要内容 | 第12-13页 |
·本文组织结构 | 第13-14页 |
第2章 文本分类研究综述 | 第14-26页 |
·文本分类基本概念 | 第14-15页 |
·文本分类的定义 | 第14页 |
·文本分类的流程 | 第14-15页 |
·文本表示综述 | 第15-18页 |
·向量空间模型(VSM) | 第16-17页 |
·tf-idf 权重 | 第16-17页 |
·词频权重(TF) | 第17页 |
·熵权重 | 第17页 |
·布尔模型 | 第17页 |
·概率模型 | 第17-18页 |
·特征选择算法研究综述 | 第18-20页 |
·文档频率方法(DF) | 第18页 |
·信息增益方法(Information Gain,IG) | 第18-19页 |
·卡方统计量方法(CHI-square) | 第19-20页 |
·期望交叉熵(Expected Cross Entropy,ECE) | 第20页 |
·文本分类算法研究综述 | 第20-25页 |
·基于实例的KNN 分类算法 | 第20-21页 |
·基于Rocchio 的分类算法 | 第21-22页 |
·基于统计的贝叶斯分类算法 | 第22页 |
·基于决策树的分类算法 | 第22-23页 |
·基于神经网络的分类算法 | 第23页 |
·基于支持向量机的分类算法 | 第23-25页 |
·本章小结 | 第25-26页 |
第3章 基于 tf-idf 的改进互信息算法和比例区分度 CPD 算法 | 第26-35页 |
·改进的 tf-idf 权重方法 | 第26-27页 |
·传统的互信息算法 | 第27-30页 |
·基于互信息的特征选择方法研究 | 第30-32页 |
·改进的互信息的特征选择算法 | 第30-31页 |
·结合改进的 tf-idf 的 DMI 算法的文本分类方法 | 第31-32页 |
·基于比例区分度(CPD)的特征选择算法 | 第32-33页 |
·本章小结 | 第33-35页 |
第4章 基于VSM 的中文文本分类系统的设计 | 第35-43页 |
·系统设计目标 | 第35页 |
·文本分类系统框架 | 第35-36页 |
·中文文本预处理 | 第36-40页 |
·特征选择 | 第40页 |
·文本分类 | 第40-41页 |
·文本分类器的评价 | 第41-42页 |
·精确率(Precision)和召回率(Recall) | 第41-42页 |
·微平均和宏平均 | 第42页 |
·本章小结 | 第42-43页 |
第5章 中文文本分类实验测试及结果分析 | 第43-49页 |
·实验环境和实验目的 | 第43页 |
·实验语料 | 第43-44页 |
·实验结果及结果分析 | 第44-48页 |
·基于VSM 模型的DMI 算法的实验结果分析 | 第44-46页 |
·基于VSM 模型的CPD 的实验结果分析 | 第46-47页 |
·tf-idf 和改进后的tf-idf 的实验结果分析 | 第47-48页 |
·本章小结 | 第48-49页 |
结论 | 第49-51页 |
参考文献 | 第51-54页 |
附录 | 第54-55页 |
致谢 | 第55-56页 |
在读期间公开发表论文(著)及科研情况 | 第56页 |