首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

中文文本数据分类研究

摘要第1-4页
ABSTRACT第4-7页
1 序言第7-11页
   ·文本数据分类的背景和意义第7页
   ·典型应用第7-8页
     ·邮件分类第8页
     ·电子会议意见分类第8页
     ·在全文检索系统中的应用第8页
     ·在网络信息过滤、萃取系统中的应用第8页
     ·在文本库的建立与重建中的应用第8页
   ·国内外分类技术研究进展第8-9页
   ·论文结构第9-11页
2 中文信息处理和现代汉语研究第11-13页
3 向量空间模型第13-17页
   ·关于VSM的基本概念第13-15页
     ·文本(Document)第13页
     ·项(Term)第13页
     ·项的权重(Term Weight)第13-14页
     ·向量空间模型(VSM)第14页
     ·相似度(Similarity)第14-15页
   ·关于VSM的讨论第15-17页
4 自动分词第17-22页
   ·机械分词第17-20页
     ·正向最大匹配第17-18页
     ·正向最小匹配第18页
     ·逆向最大匹配第18页
     ·逆向最小匹配第18-19页
     ·机械分词的缺陷及解决办法第19-20页
   ·N-GRAM分词第20-22页
5 文本特征项第22-28页
   ·剔除禁用词第22页
   ·项的权重第22-23页
   ·特征项选择算法第23-28页
     ·文本频数DF第23-24页
     ·互信息MI(Mutual Information)第24-25页
     ·X~2估计(CHI)第25-26页
     ·信息增益IG(Information Gain)第26页
     ·文本证据权(Weight Of Evidence Text)第26-27页
     ·优势率(Odds Ratio)第27-28页
6 朴素贝叶斯文本数据分类第28-33页
   ·统计模型第28-29页
   ·朴素贝叶斯分类模型第29-31页
   ·朴素贝叶斯分类器的提升第31-33页
7 实验与分析第33-46页
   ·分类评估方法第33页
   ·数据组成第33-34页
   ·数据预处理第34-35页
   ·特征选择对比第35-44页
     ·平衡样本第35-39页
     ·非平衡样本第39-44页
   ·结合BOOSTING的朴素贝叶斯分类第44-46页
8 总结与展望第46-47页
致谢第47-48页
参考文献第48-50页
攻读硕士期间发表的论文及参与的项目第50-51页
附录A: 分词实例第51-53页

论文共53页,点击 下载论文
上一篇:面向中小软件企业的过程改进模型的研究与设计
下一篇:挂接苯并-10-氮杂-15-冠-5的水杨醛亚胺Schiff碱的合成和模拟单加氧酶与水解酶的研究