| 摘要 | 第1-4页 |
| ABSTRACT | 第4-7页 |
| 1 序言 | 第7-11页 |
| ·文本数据分类的背景和意义 | 第7页 |
| ·典型应用 | 第7-8页 |
| ·邮件分类 | 第8页 |
| ·电子会议意见分类 | 第8页 |
| ·在全文检索系统中的应用 | 第8页 |
| ·在网络信息过滤、萃取系统中的应用 | 第8页 |
| ·在文本库的建立与重建中的应用 | 第8页 |
| ·国内外分类技术研究进展 | 第8-9页 |
| ·论文结构 | 第9-11页 |
| 2 中文信息处理和现代汉语研究 | 第11-13页 |
| 3 向量空间模型 | 第13-17页 |
| ·关于VSM的基本概念 | 第13-15页 |
| ·文本(Document) | 第13页 |
| ·项(Term) | 第13页 |
| ·项的权重(Term Weight) | 第13-14页 |
| ·向量空间模型(VSM) | 第14页 |
| ·相似度(Similarity) | 第14-15页 |
| ·关于VSM的讨论 | 第15-17页 |
| 4 自动分词 | 第17-22页 |
| ·机械分词 | 第17-20页 |
| ·正向最大匹配 | 第17-18页 |
| ·正向最小匹配 | 第18页 |
| ·逆向最大匹配 | 第18页 |
| ·逆向最小匹配 | 第18-19页 |
| ·机械分词的缺陷及解决办法 | 第19-20页 |
| ·N-GRAM分词 | 第20-22页 |
| 5 文本特征项 | 第22-28页 |
| ·剔除禁用词 | 第22页 |
| ·项的权重 | 第22-23页 |
| ·特征项选择算法 | 第23-28页 |
| ·文本频数DF | 第23-24页 |
| ·互信息MI(Mutual Information) | 第24-25页 |
| ·X~2估计(CHI) | 第25-26页 |
| ·信息增益IG(Information Gain) | 第26页 |
| ·文本证据权(Weight Of Evidence Text) | 第26-27页 |
| ·优势率(Odds Ratio) | 第27-28页 |
| 6 朴素贝叶斯文本数据分类 | 第28-33页 |
| ·统计模型 | 第28-29页 |
| ·朴素贝叶斯分类模型 | 第29-31页 |
| ·朴素贝叶斯分类器的提升 | 第31-33页 |
| 7 实验与分析 | 第33-46页 |
| ·分类评估方法 | 第33页 |
| ·数据组成 | 第33-34页 |
| ·数据预处理 | 第34-35页 |
| ·特征选择对比 | 第35-44页 |
| ·平衡样本 | 第35-39页 |
| ·非平衡样本 | 第39-44页 |
| ·结合BOOSTING的朴素贝叶斯分类 | 第44-46页 |
| 8 总结与展望 | 第46-47页 |
| 致谢 | 第47-48页 |
| 参考文献 | 第48-50页 |
| 攻读硕士期间发表的论文及参与的项目 | 第50-51页 |
| 附录A: 分词实例 | 第51-53页 |