首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于向量空间模型的中文网页自动分类技术研究

摘要第1-5页
Abstract第5-9页
第一章 绪论第9-15页
   ·课题的研究背景及意义第9-10页
   ·国内外研究现状第10-13页
     ·自动分类技术的发展趋势第10-11页
     ·分类模型和分类算法的发展现状第11-12页
     ·基于网页特性的分类研究现状第12-13页
   ·课题研究的主要内容第13-14页
   ·论文的组织结构第14-15页
第二章 中文网页分类关键技术第15-32页
   ·文本分类技术概述第15-17页
     ·文本分类概念第15页
     ·自动分类的方法第15-16页
     ·网页分类过程第16-17页
   ·网页预处理第17-20页
     ·HTML文档解析第17-18页
     ·中文分词第18页
     ·停用词删除第18-19页
     ·词性选择第19-20页
   ·文本表示第20-22页
     ·向量空间模型第20页
     ·权重计算第20-22页
   ·特征选取技术第22-24页
     ·文档频率(DF)第22-23页
     ·信息增益(IG)第23页
     ·开方拟合检验(χ2-CHI)第23页
     ·互信息法(MI)第23-24页
   ·分类算法简介第24-28页
     ·简单距离向量法第24-25页
     ·朴素贝叶斯(Naive-Bayes)第25页
     ·支持向量机方法(SVM)第25-27页
     ·最近邻居算法(NN)第27-28页
   ·文本分类效果评价指标第28-29页
   ·网页分类在搜索引擎中的应用第29-31页
   ·本章小结第31-32页
第三章 基于代表样本的KNN算法研究第32-41页
   ·KNN算法第32-34页
     ·算法描述第32-33页
     ·算法分析第33页
     ·相关研究工作第33-34页
   ·代表样本生成新策略第34-38页
     ·代表样本概念的提出第34-35页
     ·一种新的代表样本生成策略第35-38页
   ·改进算法描述第38-39页
     ·训练算法第38页
     ·分类算法第38-39页
   ·基于代表样本生成策略的KNN分类过程第39页
   ·本章小结第39-41页
第四章 基于中文网页结构特征的特征项加权第41-49页
   ·网页的半结构特性第41页
   ·常见的基于网页结构特征的特征加权方法第41-44页
     ·利用HTML标记进行解析加权第42页
     ·基于网页分块的特征加权第42-43页
     ·基于超链接文本的特征加权第43-44页
   ·基于主题相关链接的权值修正方法的提出第44-48页
     ·网页的DOM解析及分块第46页
     ·相关链接块的提取第46-48页
   ·本章小结第48-49页
第五章 中文网页分类器设计与实现第49-60页
   ·开发与运行平台第49页
   ·处理流程第49页
   ·分类器设计说明第49-54页
     ·系统结构第49-50页
     ·模块功能描述第50-52页
     ·系统类说明第52页
     ·数据集说明第52-53页
     ·网页下分类器CPCK界面第53-54页
   ·实验结果分析第54-60页
     ·代表样本法与传统KNN算法的实验比较第54-56页
     ·代表样本法与其他算法的实验比较第56-58页
     ·主题相关链接加权法实验对比第58-60页
结论第60-62页
 主要工作第60页
 主要创新点第60-61页
 存在的问题及未来的方向第61-62页
参考文献第62-66页
攻读硕士学位期间取得的学术成果第66-67页
致谢第67页

论文共67页,点击 下载论文
上一篇:嵌入式实时数据库存取机制与可预见性的研究
下一篇:基于特征点的碰撞检测算法的研究