摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第一章 引言 | 第9-15页 |
§1-1 Web文本分类的定义 | 第9-10页 |
§1-2 Web文本分类的背景和意义 | 第10-11页 |
§1-3 文本分类及 Web文本分类国内外研究现状 | 第11-12页 |
§1-4 流形学习与降维 | 第12-13页 |
§1-5 本文的组织结构 | 第13-15页 |
第二章 流形学习与文本分类技术概述 | 第15-24页 |
§2-1 流形学习算法简介 | 第15-21页 |
2-1-1 多维尺度变换(MDS)算法 | 第16-17页 |
2-1-2 等距映射(ISOMAP)算法 | 第17-19页 |
2-1-3 局部线性嵌入(LLE)算法 | 第19-20页 |
2-1-4 拉普拉斯映射法(LE)算法 | 第20-21页 |
§2-2 文本分类算法简介 | 第21-23页 |
2-2-1 K 近邻(KNN)分类算法 | 第21-22页 |
2-2-2 朴素贝叶斯(NB)分类算法 | 第22页 |
2-2-3 支持向量机(SVM)分类算法 | 第22-23页 |
§2-3 本章小结 | 第23-24页 |
第三章 中文 Web文本获取和预处理 | 第24-37页 |
§3-1 中文Web文本分类系统结构 | 第24页 |
§3-2 Web文本的预处理 | 第24-31页 |
3-2-1 网页(Web 页)文本预处理的意义 | 第25-26页 |
3-2-2 网页文本的获取 | 第26-27页 |
3-2-3 网页文本的初步清洗 | 第27-28页 |
3-2-4 中文分词 | 第28-30页 |
3-2-5 剔除停用词 | 第30页 |
3-2-6 分配训练集和测试集 | 第30-31页 |
§3-3 文本的特征表示 | 第31-32页 |
3-3-1 布尔模型(Boolean model) | 第31页 |
3-3-2 概率模型(Probabilistic Model) | 第31页 |
3-3-3 向量空间模型(Vector Space Model) | 第31-32页 |
§3-4 文本分类效果评价标准 | 第32-36页 |
3-4-1 影响分类效果的条件 | 第33页 |
3-4-2 评价标准 | 第33-34页 |
3-4-3 宏平均与微平均 | 第34-35页 |
3-4-4 宏平均F_1 值-分类时间比(HF_1 / Time ,HF_1-T ) | 第35-36页 |
§3-5 本章小结 | 第36-37页 |
第四章 基于流形学习的中文 Web文本分类算法 | 第37-49页 |
§4-1 基于流形学习的中文Web文本分类模型 | 第37-38页 |
§4-2 数据集的获取 | 第38-39页 |
§4-2-1 文本特征向量表示 | 第38-39页 |
§4-2-2 划分数据集 | 第39页 |
§4-3 ISOMAP算法降维处理 | 第39-41页 |
§4-4 分类器对降维前后数据的处理比较 | 第41-48页 |
§4-4-1 KNN分类器对降维前后数据的处理比较 | 第41-44页 |
§4-4-2 朴素贝叶斯分类器对降维前后数据的处理比较 | 第44-48页 |
§4-5 本章小结 | 第48-49页 |
第五章 总结及展望 | 第49-51页 |
§5-1 全文总结 | 第49页 |
§5-2 展望 | 第49-51页 |
参考文献 | 第51-54页 |
致谢 | 第54页 |