摘要 | 第1-3页 |
ABSTRACT | 第3-4页 |
目录 | 第4-7页 |
图目录 | 第7-8页 |
表目录 | 第8-9页 |
第一章 引言 | 第9-13页 |
·研究背景 | 第9-10页 |
·本文工作 | 第10-12页 |
·论文组织 | 第12-13页 |
第二章 文本分类概述 | 第13-31页 |
·文本分类的数学定义 | 第13页 |
·文本分类系统的组成 | 第13-14页 |
·文本预处理 | 第14-17页 |
·文档中的格式标记去除 | 第15页 |
·停用词、稀有词和词干化 | 第15-16页 |
·中文分词 | 第16-17页 |
·语料库 | 第17-20页 |
·Reuters-21578语料库及其预处理 | 第17-19页 |
·复旦大学中文文本分类语料库及其预处理 | 第19-20页 |
·文档的表示 | 第20-23页 |
·文档的特征 | 第20-21页 |
·文档的表示 | 第21-23页 |
·常用文本分类模型 | 第23-27页 |
·决策树分类器 | 第24页 |
·K近邻分类器 | 第24-25页 |
·支持向量机 | 第25-27页 |
·文本分类器学习、测试和评价 | 第27-31页 |
·文本分类器的学习和测试 | 第28页 |
·阈值策略 | 第28-29页 |
·评价指标 | 第29-31页 |
第三章 偏最小二乘回归方法 | 第31-37页 |
·模型工作目标 | 第31-32页 |
·计算方法推导 | 第32-35页 |
·数据标准化 | 第32页 |
·计算方法推导第一步 | 第32-34页 |
·计算方法推导第二步 | 第34-35页 |
·成分数的确定 | 第35-37页 |
第四章 基于LSC的文本分类特征选择方法 | 第37-51页 |
·维数约简技术 | 第37-38页 |
·符号约定 | 第38页 |
·特征选择 | 第38-40页 |
·x2统计量(CHI-Squared) | 第39页 |
·信息增益(Information Gain,IG) | 第39页 |
·互信息(Mutual Information,MI) | 第39-40页 |
·特征抽取 | 第40-41页 |
·潜在语义索引(Latent Semantic Index,LSI) | 第40页 |
·主成分分析(Principal Component Analysis,PCA) | 第40-41页 |
·Fisher线性判决分析(Fisher Linear Discriminate Analysis,FDA) | 第41页 |
·工作目标 | 第41-42页 |
·特征选择二步法 | 第42-45页 |
·基于LSC模型的特征抽取 | 第43-44页 |
·特征选择 | 第44-45页 |
·实验结果和分析 | 第45-51页 |
·实验设计 | 第45-46页 |
·各特征VIP值分析 | 第46-47页 |
·各特征回归系数分析 | 第47-48页 |
·不同分类模型上的性能比较 | 第48-51页 |
第五章 基于核方法的潜在语义文本分类模型 | 第51-69页 |
·核方法(Kernel Method) | 第51-55页 |
·核函数 | 第51-54页 |
·可再生核希尔伯特空间(RKHS) | 第54-55页 |
·基于核方法的潜在语义文本分类模型 | 第55-57页 |
·实验结果和分析 | 第57-69页 |
·实验设计 | 第57-58页 |
·高斯核函数参数σ的选择 | 第58-59页 |
·特征维数变化情况下的性能分析 | 第59-61页 |
·不同分类模型的性能比较 | 第61-63页 |
·潜在变量对分析 | 第63-69页 |
第六章 总结和展望 | 第69-73页 |
·总结 | 第69-70页 |
·进一步的工作 | 第70-73页 |
参考文献 | 第73-79页 |
附录 | 第79-87页 |
附1 复旦文本分类语料库Computer类不同维数上前20个VIP值 | 第80-81页 |
附2 复旦文本分类语料库Computer类不同维数上后20个VIP值 | 第81-82页 |
附3 复旦文本分类语料库6000维数时所有类别前20个VIP值 | 第82-84页 |
附4 复旦文本分类语料库各维数上潜在变量对数量和阈值ε的变化情况 | 第84-87页 |
致谢 | 第87-89页 |
个人简历 | 第89页 |