首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向专业主题的网页分类算法研究

摘要第1-9页
ABSTRACT第9-10页
第一章 引言第10-15页
 1.1 论文课题研究背景第10页
 1.2 信息检索技术的发展及其评价方法第10-12页
 1.3 网页自动分类——信息检索的重要技术手段第12页
 1.4 搜索引擎——信息检索的应用第12-13页
 1.5 本论文的主要工作及意义第13-15页
第二章 网页的处理和自动分类技术概述第15-23页
 2.1 中文网页的处理第15-16页
 2.2 数据模型第16-18页
  2.2.1 布尔模型第16-17页
  2.2.2 向量空间模型第17-18页
 2.3 特征选择及权值计算第18-20页
  2.3.1 文档频率(DF)第18-19页
  2.3.2 信息增益(IG)第19页
  2.3.3 交叉熵(CE)第19页
  2.3.4 互斥信息(MI)第19-20页
 2.4 分类器的设计第20-23页
  2.4.1 贝叶斯分类器(Bayes)第21-22页
  2.4.2 K近邻分类器(K-Nearest)第22-23页
第三章 中文奥运网页的分类算法实现及实验分析第23-36页
 3.1 实验的总体介绍第23-25页
  3.1.1 实验数据的采集第23页
  3.1.2 过滤系统的构成第23-25页
 3.2 实验数据的预处理第25-26页
 3.3 算法设计与实现第26-32页
 3.4 几种特征选择方法的网页过滤实验及比较第32-35页
  3.4.1 直接使用(TF)第32页
  3.4.2 文档频率(DF)第32-33页
  3.4.3 信息增益(IG)第33-34页
  3.4.4 交叉熵(CE)第34页
  3.4.5 互斥信息(MI)第34-35页
 3.5 本章小结第35-36页
第四章 中文网页的自适应分类算法设计与实现第36-51页
 4.1 自适应分类模型第36-38页
 4.2 自适应分类的实现第38-40页
  4.2.1 己有的文档集合分类模型的建立算法第39-40页
  4.2.2 对于新加入文档的处理第40页
 4.3 算法设计与实现第40-44页
  4.3.1 算法设计:自动确定摘要长度的算法(逐维提取法)第40-44页
 4.4 分类实验及结果第44-50页
  4.4.1 实验数据及预处理第44-45页
  4.4.2 分类器及评价方法第45页
  4.4.3 实验结果第45-48页
  4.4.4 模型在分类过程中的变化第48-50页
 4.5 本章小结第50-51页
第五章 结论及工作展望第51-53页
致谢第53-54页
附录:攻读硕士期间发表的论文第54-55页
参考文献第55-57页

论文共57页,点击 下载论文
上一篇:中学数学课堂教学中的数学交流研究
下一篇:一汽丰田物流外包方案设计与评价