摘要 | 第1-4页 |
ABSTRACT | 第4-7页 |
1 序言 | 第7-11页 |
·文本数据分类的背景和意义 | 第7页 |
·典型应用 | 第7-8页 |
·邮件分类 | 第8页 |
·电子会议意见分类 | 第8页 |
·在全文检索系统中的应用 | 第8页 |
·在网络信息过滤、萃取系统中的应用 | 第8页 |
·在文本库的建立与重建中的应用 | 第8页 |
·国内外分类技术研究进展 | 第8-9页 |
·论文结构 | 第9-11页 |
2 中文信息处理和现代汉语研究 | 第11-13页 |
3 向量空间模型 | 第13-17页 |
·关于VSM的基本概念 | 第13-15页 |
·文本(Document) | 第13页 |
·项(Term) | 第13页 |
·项的权重(Term Weight) | 第13-14页 |
·向量空间模型(VSM) | 第14页 |
·相似度(Similarity) | 第14-15页 |
·关于VSM的讨论 | 第15-17页 |
4 自动分词 | 第17-22页 |
·机械分词 | 第17-20页 |
·正向最大匹配 | 第17-18页 |
·正向最小匹配 | 第18页 |
·逆向最大匹配 | 第18页 |
·逆向最小匹配 | 第18-19页 |
·机械分词的缺陷及解决办法 | 第19-20页 |
·N-GRAM分词 | 第20-22页 |
5 文本特征项 | 第22-28页 |
·剔除禁用词 | 第22页 |
·项的权重 | 第22-23页 |
·特征项选择算法 | 第23-28页 |
·文本频数DF | 第23-24页 |
·互信息MI(Mutual Information) | 第24-25页 |
·X~2估计(CHI) | 第25-26页 |
·信息增益IG(Information Gain) | 第26页 |
·文本证据权(Weight Of Evidence Text) | 第26-27页 |
·优势率(Odds Ratio) | 第27-28页 |
6 朴素贝叶斯文本数据分类 | 第28-33页 |
·统计模型 | 第28-29页 |
·朴素贝叶斯分类模型 | 第29-31页 |
·朴素贝叶斯分类器的提升 | 第31-33页 |
7 实验与分析 | 第33-46页 |
·分类评估方法 | 第33页 |
·数据组成 | 第33-34页 |
·数据预处理 | 第34-35页 |
·特征选择对比 | 第35-44页 |
·平衡样本 | 第35-39页 |
·非平衡样本 | 第39-44页 |
·结合BOOSTING的朴素贝叶斯分类 | 第44-46页 |
8 总结与展望 | 第46-47页 |
致谢 | 第47-48页 |
参考文献 | 第48-50页 |
攻读硕士期间发表的论文及参与的项目 | 第50-51页 |
附录A: 分词实例 | 第51-53页 |