基于支持向量机与聚类算法的中文文本分类研究

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-14页
·问题的提出及意义	第9-10页
·研究现状及主要成果	第10-11页
·本文的主要研究内容	第11-14页
2 中文文本分类的相关技术	第14-28页
·汉语分词词典	第15页
·汉语分词	第15-17页
·正向最大匹配分词	第16页
·反向最大匹配分词	第16页
·基于统计的词网格分词	第16-17页
·文档表示模型	第17-20页
·文档特征	第17-18页
·文档表示	第18-19页
·常用的特征词赋权方法	第19-20页
·特征降维	第20-25页
·特征词选择	第21-23页
·特征词析取	第23-25页
·常用的文本分类方法	第25-28页
·Rocchio方法——相似度计算方法	第25页
·K近邻方法	第25-26页
·贝叶斯方法	第26-27页
·支持向量机方法	第27-28页
3 统计学习理论与支持向量机	第28-40页
·机器学习的基本问题	第28-30页
·机器学习问题的表示	第28-29页
·经验风险最小化	第29页
·复杂性与推广能力	第29-30页
·统计学习理论的核心内容	第30-32页
·VC维定义	第30页
·推广性的界	第30-31页
·结构风险最小化	第31-32页
·支持向量机	第32-37页
·最优分类超平面	第32-33页
·线性支持向量机	第33-36页
·非线性支持向量机	第36-37页
·用于多类分类的支持向量机	第37-40页
·一类对余类分类方法	第37-38页
·成对分类	第38-40页
4 聚类算法在支持向量机中的应用	第40-52页
·聚类算法的概念与分类	第40-42页
·聚类的概念	第40-41页
·常用的聚类算法	第41-42页
·传统的K-均值聚类算法与基于密度概念的K-均值聚类算法	第42-45页
·传统K-均值算法	第42-43页
·基于密度概念的K-均值算法	第43-45页
·聚类算法在支持向量选取中的应用	第45-52页
·文本向量的规范化处理	第46-47页
·基于类别信息的两两聚类的支持向量预选取	第47-52页
5 实验及结果分析	第52-61页
·文本分类器常用性能评价指标介绍	第52-53页
·查准率、查全率和F_1值	第52页
·微平均和宏平均	第52-53页
·实验分析	第53-61页
·中文文本语料预处理	第54-56页
·文本分类的实现	第56-61页
结论	第61-63页
参考文献	第63-69页
攻读学位期间的主要学术成果	第69-70页
致谢	第70页