面向专业主题的网页分类算法研究

摘要	第1-9页
ABSTRACT	第9-10页
第一章引言	第10-15页
1．1 论文课题研究背景	第10页
1．2 信息检索技术的发展及其评价方法	第10-12页
1．3 网页自动分类——信息检索的重要技术手段	第12页
1．4 搜索引擎——信息检索的应用	第12-13页
1．5 本论文的主要工作及意义	第13-15页
第二章网页的处理和自动分类技术概述	第15-23页
2．1 中文网页的处理	第15-16页
2．2 数据模型	第16-18页
2．2．1 布尔模型	第16-17页
2．2．2 向量空间模型	第17-18页
2．3 特征选择及权值计算	第18-20页
2．3．1 文档频率(DF)	第18-19页
2．3．2 信息增益(IG)	第19页
2．3．3 交叉熵(CE)	第19页
2．3．4 互斥信息(MI)	第19-20页
2．4 分类器的设计	第20-23页
2．4．1 贝叶斯分类器(Bayes)	第21-22页
2．4．2 K近邻分类器(K-Nearest)	第22-23页
第三章中文奥运网页的分类算法实现及实验分析	第23-36页
3．1 实验的总体介绍	第23-25页
3．1．1 实验数据的采集	第23页
3．1．2 过滤系统的构成	第23-25页
3．2 实验数据的预处理	第25-26页
3．3 算法设计与实现	第26-32页
3．4 几种特征选择方法的网页过滤实验及比较	第32-35页
3．4．1 直接使用(TF)	第32页
3．4．2 文档频率(DF)	第32-33页
3．4．3 信息增益(IG)	第33-34页
3．4．4 交叉熵(CE)	第34页
3．4．5 互斥信息(MI)	第34-35页
3．5 本章小结	第35-36页
第四章中文网页的自适应分类算法设计与实现	第36-51页
4．1 自适应分类模型	第36-38页
4．2 自适应分类的实现	第38-40页
4．2．1 己有的文档集合分类模型的建立算法	第39-40页
4．2．2 对于新加入文档的处理	第40页
4．3 算法设计与实现	第40-44页
4．3．1 算法设计:自动确定摘要长度的算法(逐维提取法)	第40-44页
4．4 分类实验及结果	第44-50页
4．4．1 实验数据及预处理	第44-45页
4．4．2 分类器及评价方法	第45页
4．4．3 实验结果	第45-48页
4．4．4 模型在分类过程中的变化	第48-50页
4．5 本章小结	第50-51页
第五章结论及工作展望	第51-53页
致谢	第53-54页
附录:攻读硕士期间发表的论文	第54-55页
参考文献	第55-57页