首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于PLS的文本分类技术研究

摘要第1-3页
ABSTRACT第3-4页
目录第4-7页
图目录第7-8页
表目录第8-9页
第一章 引言第9-13页
   ·研究背景第9-10页
   ·本文工作第10-12页
   ·论文组织第12-13页
第二章 文本分类概述第13-31页
   ·文本分类的数学定义第13页
   ·文本分类系统的组成第13-14页
   ·文本预处理第14-17页
     ·文档中的格式标记去除第15页
     ·停用词、稀有词和词干化第15-16页
     ·中文分词第16-17页
   ·语料库第17-20页
     ·Reuters-21578语料库及其预处理第17-19页
     ·复旦大学中文文本分类语料库及其预处理第19-20页
   ·文档的表示第20-23页
     ·文档的特征第20-21页
     ·文档的表示第21-23页
   ·常用文本分类模型第23-27页
     ·决策树分类器第24页
     ·K近邻分类器第24-25页
     ·支持向量机第25-27页
   ·文本分类器学习、测试和评价第27-31页
     ·文本分类器的学习和测试第28页
     ·阈值策略第28-29页
     ·评价指标第29-31页
第三章 偏最小二乘回归方法第31-37页
   ·模型工作目标第31-32页
   ·计算方法推导第32-35页
     ·数据标准化第32页
     ·计算方法推导第一步第32-34页
     ·计算方法推导第二步第34-35页
   ·成分数的确定第35-37页
第四章 基于LSC的文本分类特征选择方法第37-51页
   ·维数约简技术第37-38页
   ·符号约定第38页
   ·特征选择第38-40页
     ·x2统计量(CHI-Squared)第39页
     ·信息增益(Information Gain,IG)第39页
     ·互信息(Mutual Information,MI)第39-40页
   ·特征抽取第40-41页
     ·潜在语义索引(Latent Semantic Index,LSI)第40页
     ·主成分分析(Principal Component Analysis,PCA)第40-41页
     ·Fisher线性判决分析(Fisher Linear Discriminate Analysis,FDA)第41页
   ·工作目标第41-42页
   ·特征选择二步法第42-45页
     ·基于LSC模型的特征抽取第43-44页
     ·特征选择第44-45页
   ·实验结果和分析第45-51页
     ·实验设计第45-46页
     ·各特征VIP值分析第46-47页
     ·各特征回归系数分析第47-48页
     ·不同分类模型上的性能比较第48-51页
第五章 基于核方法的潜在语义文本分类模型第51-69页
   ·核方法(Kernel Method)第51-55页
     ·核函数第51-54页
     ·可再生核希尔伯特空间(RKHS)第54-55页
   ·基于核方法的潜在语义文本分类模型第55-57页
   ·实验结果和分析第57-69页
     ·实验设计第57-58页
     ·高斯核函数参数σ的选择第58-59页
     ·特征维数变化情况下的性能分析第59-61页
     ·不同分类模型的性能比较第61-63页
     ·潜在变量对分析第63-69页
第六章 总结和展望第69-73页
   ·总结第69-70页
   ·进一步的工作第70-73页
参考文献第73-79页
附录第79-87页
 附1 复旦文本分类语料库Computer类不同维数上前20个VIP值第80-81页
 附2 复旦文本分类语料库Computer类不同维数上后20个VIP值第81-82页
 附3 复旦文本分类语料库6000维数时所有类别前20个VIP值第82-84页
 附4 复旦文本分类语料库各维数上潜在变量对数量和阈值ε的变化情况第84-87页
致谢第87-89页
个人简历第89页

论文共89页,点击 下载论文
上一篇:基于大规模定制的质量管理信息系统可靠性研究
下一篇:非高斯Alpha稳定分布环境下CDMA系统干扰抑制研究