摘要 | 第1-5页 |
ABSTRACT | 第5-8页 |
第一章 绪论 | 第8-11页 |
§1-1 课题的研究背景 | 第8-9页 |
§1-2 文本分类概述 | 第9页 |
§1-3 本文结构 | 第9-11页 |
第二章 降维方法介绍 | 第11-23页 |
§2-1 降维中的概念 | 第11-15页 |
2-1-1 数据集空间及数据集结构的数学描述 | 第11-12页 |
2-1-2 维数灾难 | 第12页 |
2-1-3 降维的定义 | 第12-14页 |
2-1-4 特征维数 | 第14-15页 |
§2-2 高维空间的特殊性 | 第15-16页 |
2-2-1 高维超球的体积集中在外壳上 | 第15页 |
2-2-2 正态分布的胖尾现象 | 第15-16页 |
§2-3 降维问题的分类和在不同领域中的表现 | 第16-17页 |
2-3-1 降维问题的分类 | 第16-17页 |
2-3-2 降维在不同领域中的表现 | 第17页 |
§2-4 几种不同的降维方法 | 第17-22页 |
2-4-1 主成分分析法(PCA) | 第17-18页 |
2-4-2 等距映射算法Isomap | 第18-19页 |
2-4-3 自组织等距嵌入SIE | 第19-20页 |
2-4-4 Laplacian Eigenmap方法 | 第20-21页 |
2-4-5 有监督的LLE (SLLE) | 第21页 |
2-4-6 几种降维算法的比较 | 第21-22页 |
§2-5 基于离散数据集合的降维 | 第22-23页 |
第三章 文本分类方法的研究 | 第23-32页 |
§3-1 中文文本的表示方法 | 第23-24页 |
3-1-1 向量空间模型 | 第23-24页 |
3-1-2 概率模型 | 第24页 |
3-1-3 潜在语义索引模型 | 第24页 |
§3-2 分词技术 | 第24-25页 |
3-2-1 机械分词方法 | 第24页 |
3-2-2 统计分词方法 | 第24-25页 |
3-2-3 基于理解的分词方法 | 第25页 |
§3-3 特征选择算法 | 第25-27页 |
3-3-1 互信息(Mutual Information) | 第25页 |
3-3-2 χ~2统计 | 第25-26页 |
3-3-3 期望交叉熵(Cross Entropy) | 第26页 |
3-3-4 文本证据权(The Weight of Evidence For Text) | 第26页 |
3-3-5 文档频率(Document Frequency) | 第26-27页 |
3-3-6 信息增益(Information Gain) | 第27页 |
§3-4 特征权重算法 | 第27-28页 |
3-4-1 布尔权重 | 第27页 |
3-4-2 词频权重 | 第27页 |
3-4-3 TFIDF权重 | 第27-28页 |
§3-5 基于统计方法的分类算法 | 第28-32页 |
3-5-1 朴素贝叶斯算法 | 第28-29页 |
3-5-2 K近邻算法(KNN) | 第29页 |
3-5-3 支持向量机分类算法(SVM) | 第29-32页 |
第四章 局部线性嵌入法的研究 | 第32-40页 |
§4-1 局部线性嵌入法的原理 | 第32-38页 |
4-1-1 局部线性嵌入降维方法的基本过程 | 第32-35页 |
4-1-2 数据集合的自通近度和可分离度 | 第35-36页 |
4-1-3 邻点数K的选取 | 第36-37页 |
4-1-4 本征维数d的确定 | 第37-38页 |
4-1-5 基本思想和算法 | 第38页 |
§4-2 LLE算法的应用 | 第38-40页 |
4-2-1 LLE算法的应用实例 | 第39-40页 |
第五章 LLE在文本分类中的应用 | 第40-48页 |
§5-1 文本数据的预处理 | 第40-42页 |
5-1-1 训练集和测试集 | 第40页 |
5-1-2 向量特征空间的建立 | 第40-42页 |
§5-2 实验环境 | 第42页 |
§5-3 评价指标和准则 | 第42页 |
§5-4 实验数据的空间向量模型 | 第42-48页 |
第六章 结论 | 第48-49页 |
§6-1 论文完成的主要工作 | 第48页 |
§6-2 研究工作展望 | 第48-49页 |
参考文献 | 第49-51页 |
致谢 | 第51页 |