中文文本数据分类研究

摘要	第1-4页
ABSTRACT	第4-7页
1 序言	第7-11页
·文本数据分类的背景和意义	第7页
·典型应用	第7-8页
·邮件分类	第8页
·电子会议意见分类	第8页
·在全文检索系统中的应用	第8页
·在网络信息过滤、萃取系统中的应用	第8页
·在文本库的建立与重建中的应用	第8页
·国内外分类技术研究进展	第8-9页
·论文结构	第9-11页
2 中文信息处理和现代汉语研究	第11-13页
3 向量空间模型	第13-17页
·关于VSM的基本概念	第13-15页
·文本(Document)	第13页
·项(Term)	第13页
·项的权重(Term Weight)	第13-14页
·向量空间模型(VSM)	第14页
·相似度(Similarity)	第14-15页
·关于VSM的讨论	第15-17页
4 自动分词	第17-22页
·机械分词	第17-20页
·正向最大匹配	第17-18页
·正向最小匹配	第18页
·逆向最大匹配	第18页
·逆向最小匹配	第18-19页
·机械分词的缺陷及解决办法	第19-20页
·N-GRAM分词	第20-22页
5 文本特征项	第22-28页
·剔除禁用词	第22页
·项的权重	第22-23页
·特征项选择算法	第23-28页
·文本频数DF	第23-24页
·互信息MI(Mutual Information)	第24-25页
·X~2估计(CHI)	第25-26页
·信息增益IG(Information Gain)	第26页
·文本证据权(Weight Of Evidence Text)	第26-27页
·优势率(Odds Ratio)	第27-28页
6 朴素贝叶斯文本数据分类	第28-33页
·统计模型	第28-29页
·朴素贝叶斯分类模型	第29-31页
·朴素贝叶斯分类器的提升	第31-33页
7 实验与分析	第33-46页
·分类评估方法	第33页
·数据组成	第33-34页
·数据预处理	第34-35页
·特征选择对比	第35-44页
·平衡样本	第35-39页
·非平衡样本	第39-44页
·结合BOOSTING的朴素贝叶斯分类	第44-46页
8 总结与展望	第46-47页
致谢	第47-48页
参考文献	第48-50页
攻读硕士期间发表的论文及参与的项目	第50-51页
附录A: 分词实例	第51-53页