摘要 | 第1-4页 |
ABSTRACT | 第4-9页 |
1 绪论 | 第9-14页 |
·本文的研究背景及其现实意义 | 第9页 |
·文本分类研究和应用现状 | 第9-11页 |
·仿射坐标系研究与应用现状 | 第11页 |
·正交分解方法应用和研究现状 | 第11-12页 |
·本文结构和研究内容 | 第12-14页 |
·本文的主要工作 | 第12页 |
·本文的组织 | 第12-14页 |
2 文本分类相关技术 | 第14-24页 |
·文本分类系统的问题描述 | 第14-15页 |
·文本分类系统流程及需解决的问题 | 第15-16页 |
·文本信息检索模型 | 第16-18页 |
·布尔模型(Boolean Model) | 第16页 |
·概率模型(Probabilistic Model) | 第16页 |
·向量空间模型 | 第16-18页 |
·中文分词技术 | 第18页 |
·常用特征项提取方法 | 第18-20页 |
·文档频率 DF(Document Frequency:DF) | 第18-19页 |
·信息增益方法 I G(Information Gain: IG) | 第19页 |
·互信息方法 MI(Mutual Information: MI) | 第19-20页 |
·常用分类方法 | 第20-21页 |
·类中心分类法 | 第20-21页 |
·K 最邻近方法KNN | 第21页 |
·分类器评价标准 | 第21-23页 |
·精确度和召回率 | 第22页 |
·F-测量 | 第22页 |
·分类方法的综合评价 | 第22-23页 |
·本章小结 | 第23-24页 |
3 仿射空间和正交分解概念 | 第24-29页 |
·仿射坐标系 | 第24-25页 |
·仿射坐标系下向量的性质 | 第25页 |
·正交分解法 | 第25-27页 |
·力的正交分解 | 第25-26页 |
·正交分解模型应用到文本分类 | 第26-27页 |
·线形变换 | 第27-28页 |
·本章小结 | 第28-29页 |
4 类中心分类法的改进 | 第29-35页 |
·传统向量空间内类中心分类法的不足 | 第29-31页 |
·基于仿射空间和正交分解模型的类中心分类法的改进 | 第31-34页 |
·基于正交分解的类中心分类法 | 第31-32页 |
·基于仿射空间和正交分解的类中心分类法Ⅰ | 第32-33页 |
·基于仿射空间和正交分解的类中心分类法Ⅱ | 第33-34页 |
·本章小结 | 第34-35页 |
5 实验方法与结果分析 | 第35-47页 |
·数据来源 | 第35页 |
·语料库1 文本分类实验 | 第35-45页 |
·混淆矩阵 | 第36-39页 |
·特征选择个数的选取 | 第39页 |
·总体查全率、查对率 | 第39-42页 |
·各个类的查全率、查对率 | 第42-44页 |
·各中方法时间对比 | 第44-45页 |
·语料库2 文本分类实验 | 第45-46页 |
·总体查全率、查对率 | 第45-46页 |
·本章小结 | 第46-47页 |
6 结论与展望 | 第47-48页 |
·本文的工作总结 | 第47页 |
·进一步的工作 | 第47-48页 |
致谢 | 第48-49页 |
参考文献 | 第49-51页 |
附录 | 第51页 |
A. 作者在攻读硕士学位期间发表的论文 | 第51页 |
B. 作者在攻读硕士学位期间参与的项目 | 第51页 |