| 摘要 | 第1-4页 |
| ABSTRACT | 第4-9页 |
| 1 绪论 | 第9-14页 |
| ·本文的研究背景及其现实意义 | 第9页 |
| ·文本分类研究和应用现状 | 第9-11页 |
| ·仿射坐标系研究与应用现状 | 第11页 |
| ·正交分解方法应用和研究现状 | 第11-12页 |
| ·本文结构和研究内容 | 第12-14页 |
| ·本文的主要工作 | 第12页 |
| ·本文的组织 | 第12-14页 |
| 2 文本分类相关技术 | 第14-24页 |
| ·文本分类系统的问题描述 | 第14-15页 |
| ·文本分类系统流程及需解决的问题 | 第15-16页 |
| ·文本信息检索模型 | 第16-18页 |
| ·布尔模型(Boolean Model) | 第16页 |
| ·概率模型(Probabilistic Model) | 第16页 |
| ·向量空间模型 | 第16-18页 |
| ·中文分词技术 | 第18页 |
| ·常用特征项提取方法 | 第18-20页 |
| ·文档频率 DF(Document Frequency:DF) | 第18-19页 |
| ·信息增益方法 I G(Information Gain: IG) | 第19页 |
| ·互信息方法 MI(Mutual Information: MI) | 第19-20页 |
| ·常用分类方法 | 第20-21页 |
| ·类中心分类法 | 第20-21页 |
| ·K 最邻近方法KNN | 第21页 |
| ·分类器评价标准 | 第21-23页 |
| ·精确度和召回率 | 第22页 |
| ·F-测量 | 第22页 |
| ·分类方法的综合评价 | 第22-23页 |
| ·本章小结 | 第23-24页 |
| 3 仿射空间和正交分解概念 | 第24-29页 |
| ·仿射坐标系 | 第24-25页 |
| ·仿射坐标系下向量的性质 | 第25页 |
| ·正交分解法 | 第25-27页 |
| ·力的正交分解 | 第25-26页 |
| ·正交分解模型应用到文本分类 | 第26-27页 |
| ·线形变换 | 第27-28页 |
| ·本章小结 | 第28-29页 |
| 4 类中心分类法的改进 | 第29-35页 |
| ·传统向量空间内类中心分类法的不足 | 第29-31页 |
| ·基于仿射空间和正交分解模型的类中心分类法的改进 | 第31-34页 |
| ·基于正交分解的类中心分类法 | 第31-32页 |
| ·基于仿射空间和正交分解的类中心分类法Ⅰ | 第32-33页 |
| ·基于仿射空间和正交分解的类中心分类法Ⅱ | 第33-34页 |
| ·本章小结 | 第34-35页 |
| 5 实验方法与结果分析 | 第35-47页 |
| ·数据来源 | 第35页 |
| ·语料库1 文本分类实验 | 第35-45页 |
| ·混淆矩阵 | 第36-39页 |
| ·特征选择个数的选取 | 第39页 |
| ·总体查全率、查对率 | 第39-42页 |
| ·各个类的查全率、查对率 | 第42-44页 |
| ·各中方法时间对比 | 第44-45页 |
| ·语料库2 文本分类实验 | 第45-46页 |
| ·总体查全率、查对率 | 第45-46页 |
| ·本章小结 | 第46-47页 |
| 6 结论与展望 | 第47-48页 |
| ·本文的工作总结 | 第47页 |
| ·进一步的工作 | 第47-48页 |
| 致谢 | 第48-49页 |
| 参考文献 | 第49-51页 |
| 附录 | 第51页 |
| A. 作者在攻读硕士学位期间发表的论文 | 第51页 |
| B. 作者在攻读硕士学位期间参与的项目 | 第51页 |