基于向量空间模型的中文网页自动分类技术研究

摘要	第1-5页
Abstract	第5-9页
第一章绪论	第9-15页
·课题的研究背景及意义	第9-10页
·国内外研究现状	第10-13页
·自动分类技术的发展趋势	第10-11页
·分类模型和分类算法的发展现状	第11-12页
·基于网页特性的分类研究现状	第12-13页
·课题研究的主要内容	第13-14页
·论文的组织结构	第14-15页
第二章中文网页分类关键技术	第15-32页
·文本分类技术概述	第15-17页
·文本分类概念	第15页
·自动分类的方法	第15-16页
·网页分类过程	第16-17页
·网页预处理	第17-20页
·HTML文档解析	第17-18页
·中文分词	第18页
·停用词删除	第18-19页
·词性选择	第19-20页
·文本表示	第20-22页
·向量空间模型	第20页
·权重计算	第20-22页
·特征选取技术	第22-24页
·文档频率(DF)	第22-23页
·信息增益(IG)	第23页
·开方拟合检验(χ2－CHI)	第23页
·互信息法(MI)	第23-24页
·分类算法简介	第24-28页
·简单距离向量法	第24-25页
·朴素贝叶斯(Naive－Bayes)	第25页
·支持向量机方法(SVM)	第25-27页
·最近邻居算法(NN)	第27-28页
·文本分类效果评价指标	第28-29页
·网页分类在搜索引擎中的应用	第29-31页
·本章小结	第31-32页
第三章基于代表样本的KNN算法研究	第32-41页
·KNN算法	第32-34页
·算法描述	第32-33页
·算法分析	第33页
·相关研究工作	第33-34页
·代表样本生成新策略	第34-38页
·代表样本概念的提出	第34-35页
·一种新的代表样本生成策略	第35-38页
·改进算法描述	第38-39页
·训练算法	第38页
·分类算法	第38-39页
·基于代表样本生成策略的KNN分类过程	第39页
·本章小结	第39-41页
第四章基于中文网页结构特征的特征项加权	第41-49页
·网页的半结构特性	第41页
·常见的基于网页结构特征的特征加权方法	第41-44页
·利用HTML标记进行解析加权	第42页
·基于网页分块的特征加权	第42-43页
·基于超链接文本的特征加权	第43-44页
·基于主题相关链接的权值修正方法的提出	第44-48页
·网页的DOM解析及分块	第46页
·相关链接块的提取	第46-48页
·本章小结	第48-49页
第五章中文网页分类器设计与实现	第49-60页
·开发与运行平台	第49页
·处理流程	第49页
·分类器设计说明	第49-54页
·系统结构	第49-50页
·模块功能描述	第50-52页
·系统类说明	第52页
·数据集说明	第52-53页
·网页下分类器CPCK界面	第53-54页
·实验结果分析	第54-60页
·代表样本法与传统KNN算法的实验比较	第54-56页
·代表样本法与其他算法的实验比较	第56-58页
·主题相关链接加权法实验对比	第58-60页
结论	第60-62页
主要工作	第60页
主要创新点	第60-61页
存在的问题及未来的方向	第61-62页
参考文献	第62-66页
攻读硕士学位期间取得的学术成果	第66-67页
致谢	第67页